﻿Cuprins SISTEME DE CALCUL PARALEL SCURTĂ ISTORIE CE SUNT CALCULATORUL PARALEL ȘI PROGRAMAREA PARALELĂ? PROCESARE PARALELĂ - ANALOGIE CU VIAȚA COTIDIANĂ NIVELURI DE PARALELISM CLASIFICAREA SISTEMELOR PARA- LELE SISTEME SISD SISTEME SIMD SISTEME MISD SISTEME MIMD INSTRUCȚIUNI CONDIȚIONALE ÎN SISTEMELE SIMD ȘI MIMD SISTEME PARTIȚIONABILE TIPURI DE MIMD ȘI TRANSPUTERE TEHNICA PIPELINE ȘI PROCESOARE PIPELINE PROCESOARE VECTORIALE PROCESOARE MATRICEALE MATRICI SISTOLICE SISTEME CU MEMORIE COMUNĂ SISTEME CU MEMORIE DISTRIBUITĂ CLASIFICAREA REȚELELOR DE INTERCONECTARE RECONFIGURAREA LOGICĂ A REȚELELOR DE INTERCONECTARE SISTEME GAZDĂ PROGRAMARE PARALELĂ PROCESE CONCURENTE CUPRINS MULTIPROGRAMARE ȘI MULTIPRO- CESARE COMUNICARE ȘI SINCRONIZARE Sincronizarea în sistemele paralele cu memorie comună Sincronizarea în sistemele paralele cu transmitere de mesaje EFICIENȚA ORGANIZAREA DATELOR Tehnici de distribuire a datelor Tehnica de transfer a datelor CÂND O PROBLEMĂ ESTE PARALELI- ZABILĂ? GENERAREA ALGORITMILOR PARA- LELI ALGORITMI PARALELI FUNDAMENTALI DIVIDE ET IMPERA MULTIPLICAREA A DOUĂ MATRICI EVALUAREA EXPRESIILOR ARITME- TICE Tehnica dublării recursive Paralelism la nivelul expresiilor aritmetice Paralelism la nivelul instrucțiunilor ALGORITMI PENTRU SISTEME ORGANIZATE PE BIȚI CIRCUITE LOGICE SORTARE Sortarea prin numărare Procedeul bulelor Sortarea par-impar Sortare cu arbori Sortarea rapidă Sortarea bitonică CĂUTARE INTERCLASARE PROBLEMA COLORĂRII UNUI GRAF ALGORITMI NUMERICI PARALELI MODALITĂȚI DE CONSTRUIRE A ALGORITMILOR NU- MERICI PARALELI EVALUAREA RELAȚIILOR RECURSIVE CUPRINS POLINOAME SISTEME LINIARE TRIDIAGONALE - METODE DIRECTE Reducerea ciclică Reducerea dimensiunii problemei SISTEME LINIARE TRIUNGHIULARE - METODE DIRECTE Algoritmul de schimbare a coloanei Algoritmul produsului recurent Inversarea matricei SISTEME CU MATRICE DENSE - METODE DIRECTE Metoda Gauss de eliminare Factorizarea WR Factorizarea QR SISTEME LINIARE - METODE ITERATIVE REZOLVAREA ECUAȚIILOR NELI- NIARE Creșterea numărului de evaluări de funcție Metoda Newton Metoda Jacobi-Newton Metode de interpolare inversă REZOLVAREA ECUAȚIILOR DIFERENȚIALE Metoda Nivergelt Metode predictor-corector Metode Runge-Kutta REZOLVAREA ECUAȚIILOR CU DERIVATE PARȚIALE Soluții numerice cu diferențe Metode paralele iterative punctuale Metode paralele iterative pe linii Metoda elementului finit Metode multigrilă PROBLEME PARALELISM ÎN PROCESAREA IMAGINILOR MEDII DE PROGRAMARE PROGRAMAREA SUB SISTEMUL PARIX PENTRU TRANS- PUTERE CUPRINS Exemplul : Programul ”Hello, World!” Exemplul : Procese concurente pe un singur procesor prin legături virtuale Exemplul : Rezolvarea unui sistem liniar Exemplul : Metoda Newton modificată PROGRAMAREA PE MASPAR PROGRAMAREA SUB SISTEMUL PVM PENTRU REȚELE UNIX Exemplul : Comunicarea între procesoare Exemplul : Problema supraviețuirii unei colonii de celule Exemplul : Metoda Newton modificată PROGRAMAREA CONCURENTĂ ÎN PARALLAXIS Exemplul : Procese independente Exemplul : Determinarea maximului a dim numere întregi Exemplul : Sortarea bitonică a m numere întregi Exemplul : Sortarea cu arbori binari a unui vector de numere reale Capitolul SISTEME DE CALCUL PARALEL SCURTĂ ISTORIE Conceptul clasic a lui von Neumann despre computerul serial a fost incorporat în primele mașini moderne de calcul Viteza de calcul a crescut considerabil odată cu înlocuirea tuburilor cu tranzistori și circuite integrate La un moment dat, însă, capabilitățile computerelor sunt inevitabil cu un pas în urma necesităților aplicațiilor științifice și tehnologice In zilele noastre, un computer serial efectuează peste IO operații pe secundă Din păcate, nu ne putem aștepta ca, în viitor, să fie construite mașini care să lucreze mult mai rapid decât cele existente astăzi La baza acestei afirmații se află rațiuni fizice Un semnal electric se propagă într-un metru aproximativ într-o nanosecundă (IO- sec) și cum anumite componente ale calculatorului nu pot avea dimensiuni sub ordinul milimetrilor, limita fizică a numărului de operații se află undeva în jurul a IO operații într-o secundă Următorul pas în căutarea de metode de îmbunătățire a vitezei de calcul este paralelismul Un algoritm paralel este un algoritm care permite efectuarea simultană a mai multor operații In anii ’ a luat un avânt deosebit proiectarea unor calculatoare a căror circuite erau divizate în subunități, fiecare executând diferite operații Paralelismul se realizează la nivelul asamblorului Un exemplu este inițierea unei operații înaintea terminării operației precedente Au fost construite mașini (Cray și Ciber) care cuplează această tehnică, numită ”pipelining” (tehnica conductei), cu unități hardware independente pentru execuția unor anumite operații, cum ar h adunarea și multiplicarea Termenul de procesor vectorial descrie în mod uzual un asemenea sistem Procesarea fluxului de date într-o mașină de calcul vectorial se aseamănă cu o bandă CAPITOLUL SISTEME DE CALCUL PARALEL de producție dintr-o fabrică Apariția circuitelor integrate a permis dezvoltarea supercalculatoarelor Ideea de bază este eliminarea bufferelor de mare viteză și conectarea directă a procesoarelor la bănci de memorie Memoria este distribuită între procesoare și o parte este accesibilă tuturor unităților Unitatea centrală unică este înlocuită cu mai multe procesoare care, deși individual pot lucra încet, accelerează viteza de procesare operând în paralel Schemele de interconectare fizică a procesoarelor, utilizate în prezent, sunt de tip hipercub, inel sau latice Calculul paralel a dat o dimensiune nouă construcției de algoritmi și programe Programarea paralelă nu este o simplă extensie a programării seriale Experiența a arătat că modul de judecare a eficienței algoritmilor bazați pe tehnici seriale nu corespunde în cazul paralel Nu toți algoritmii secvențiali pot fi paralelizați, așa cum în natură există o serie de exemple (exemplul lui N Wilding: trei femei nu pot produce un copil numai în trei luni, lucrând împreună la această problemă) Pe de altă parte, o serie de algoritmi numerici standard seriali dovedesc un grad înalt de paralelism: conțin numeroase calcule care sunt independente unele de altele și pot fi executate simultan In proiectarea unor algoritmi de calcul paralel este necesară regândirea sistemelor, limbajelor, problemelor nenumerice și a metodelor numerice Viitorul calculatoarelor paralele depinde în mare măsură de efortul care se face în momentul de față pentru stabilirea algoritmilor paraleli cei mai eficienți și de proiectarea limbajelor paralele în care acești algoritmi pot fi exprimați In cadrul unui calculator paralel, nu este necesară incorporarea unor procesoare cu performanțe deosebite Astfel, costul unui calculator paralel cu un număr mare de procesoare poate fi relativ ieftin față de un calculator serial sau un supercomputer vectorial cu performanțe de procesare comparabile Totuși, la momentul actual, calculatoarele vectoriale prezintă procentul cel mai ridicat de achiziționări pe piața de supercalculatoare Motivul este tehnologia software relativ primitivă existentă pentru calculatoarele paralele Prin transferarea pe calculatorul paralel a codurilor seriale elaborate de-a lungul anilor nu se poate obține implicit eficiența maximă Din păcate, tehnologia comunicațiilor este mult în urma tehnologiilor de calcul și, pe calculatoarele existente pe piață, multe aplicații suferă de o anumită limită a comunicațiilor: raportul dintre timpul de comunicare și timpul de calcul efectiv, în majoritatea aplicațiilor, este extrem de ridicat CE SUNT CALCULATORUL PARALEL ȘI PROGRAMAREA PARALELĂ? Un calculator paralel este o colecție de procesoare, de obicei de același tip, inter- CE SUNT CALCULATORUL PARALEL ȘI PROGRAMAREA PARALELĂ?! conectate într-o anumită rețea care permite coordonarea activităților lor și schimbul de date Se presupune că procesoarele se află la distanțe mici unele de altele și pot colabora la rezolvarea unei probleme Spre deosebire de un calculator paralel, un sistem distribuit este o mulțime de procesoare, de obicei de tip diferit, distribuite pe o arie geografică mare, construit în scopul utilizării resurselor disponibile și colectarea și transmiterea informațiilor printr-o rețea de conectare a procesoarelor Programele paralele utilizează concurența pentru a rula mai rapid Un sistem distrinuit utilizează procese concurente datorită distribuirii fizice a mașinilor din care este compus (un exemplu este poșta electronică: presupune procese diferite pe diferite stații de lucru, scopul nefiind acela de a comunica mai rapid decât prin utilizarea unei singure stații) Scopul procesării paralele este executarea unor calcule mai rapid decît ar fi posibil cu un singur procesor, prin utilizarea concurentă a mai multe procesoare Este destinat aplicațiilor ce necesită soluții rapide sau rezolvarea unor probleme de dimensiuni mari (de exemplu, dinamica fluidelor, vremea probabilă, modelarea și simularea sistemelor mari, procesarea și extragerea informației, procesarea imaginilor, inteligență artificială, manufacturare automată) Există trei motivații pentru utilizarea procesorului paralel: pentru a atinge performanța cerută relativă la timpul de execuție; pentru că este o arhitectură disponibilă; pentru că problema care se pune se pretează la calculul paralel Cei trei factori principali care au favorizat introducerea pe scară largă a procesării paralele sunt: • costul relativ scăzut al unui sistem cu mai multe procesoare; • tehnologia circuitelor integrate a avansat în asemenea măsură încît pe un singur cip pot fi înglobate milioane de tranzitoare; • ciclul de timp al procesorului serial se apropie de limitele fizice sub care nu este posibilă nici o îmbunătățire în dezvoltarea conceptului de paralelism s-au conturat două direcții de cercetare: în problema hardului, respectiv care este arhitectura calculatorului care avantajează anumiți algoritmi de rezolvare a unor probleme diverse; calcul paralel orientat pe problemă, respectiv cât de mult îmbunătățesc algoritmii paraleli viteza de calcul pentru o problemă dată CAPITOLUL SISTEME DE CALCUL PARALEL Programarea paralelă este arta de a programa o colecție de calculatoare pentru a executa eficient o singură aplicație Dacă aplicația este numerică sau de calcul simbolic, eficiența înseamnă atingerea unei viteze mari de execuție (invers proporțională cu numărul de procesoare) In cazul unei aplicații în timp real sau a unui sistem de operare, eficiența constă în satisfacerea în timp real a cerințelor impuse de unități sau utilizatori Programarea paralelă caută căile de divizare a aplicațiilor în unități (procese) care pot fi executate concurent pe mai multe procesoare Presupune specificarea problemei; identificarea unităților fundamentale și interacțiunile dintre acestea; transpunerea acestor unități fundamantele în procese cu interacțiunile specificate prin primitive de comunicare Programarea paralelă este parte componentă a programării concurente Termenul de programare concurentă este asociat atât cu sistemele multiprocesor și rețelele, cât și cu sistemele de operare și sistemele în timp real Un algorim secvențial specifică o execuție secvențială a unui set de instrucțiuni Execuția sa este numită proces Un algoritm paralel specifică doi sau mai mulți algoritmi secvențiali care pot fi executați simultan ca procese paralele (concurente) Astfel, un proces este o colecție de instrucțiuni de control secvențiale care accesează date locale sau globale și care poate fi executat în paralel cu alte unități de program Procesoarele pe care se execută un program paralel pot fi grupate într-o unitate (multiprocesor sau calculator paralel) sau pot fi separate ca mașini autonome conectate printr-o rețea Programarea paralelă necesită un limbaj de calcul și un limbaj de coordonare Limbajul de coordonare este cheia ce permite utilizatorului unificarea într-un program a mai multor activități separate, fiecare specificate utilizând limbajul de calcul Limbajul de calcul (Fortran, C, ) permite calcularea unor valori și manipularea obiectelor-date locale Limbajul de coordonare permite crearea activităților (procese) simultane și comunicarea între acestea De obicei, funcțiile standard ale limbajului de calcul și ale limbajului de coordonare sunt unite într-un super-limbaj Un limbaj concurent este un limbaj de programare de nivel înalt pentru programarea concurentă, adică care oferă următoarele facilități: • descrierea proceselor paralele; • mijloace de comunicare între procese; • posibilități de sincronizare a proceselor PROCESARE PARALELĂ - ANALOGIE CU VIAȚA COTIDIANĂ Limbajele concurente sunt de obicei orientate funcție de o anumită arhitectură: sistem monoprocesor, multiprocesor sau sistem distribuit PROCESARE PARALELĂ - ANALOGIE CU VIAJA COTIDIANĂ Modelul de dezvoltare a calculatoarelor se aseamănă cu modelul dezvoltării umane Supraviețuirea speciei umane depinde de avansul a două fronturi Primul este performanța individului, fizică și intelectuală, iar al doilea concurența socială: rezultatele sunt mult mai eficiente dacă se lucrează în grup Cu cât grupul de indivizi este mai mare, cu atât progresul este mai mare Un număr de oameni de știință și cercetători ai inteligenței artificiale au argumentat că inteligența umană se bazează pe interacțiunea unui număr mare de unități simple de procesare Această idee prezintă interes în modelarea ființei umane și a intelingenței ei prin procesare distribuită paralel (prescurtat PDP) Un studiu al mecanismului minții relevă faptul că creierul uman este organizat dintr-un număr mare de elemente interconectate care își trasmit reciproc semnale sub formă de excitatori și inhibitori Un sistem PDP "învață” din exemple Spre deosebire de inteligența artificială, în PDP nu există reguli de bază Elementele unui PDP sunt: o mulțime de unități de procesare; starea activității sistemului la fiecare moment; o anumită conectare între unități; o regulă de propagare a unei directive de activitate; o regulă de activare; o regulă de învățare prin care structura de conectare este modificată prin experiență Pentru o cât mai bună înțelegere a modului de construcție a algoritmilor paraleli, se consideră următoarea problemă din viața cotidiană (Williams, ) Problema Familială O familie, compusă din Tata, Mama și copii Іоап, Тоша și Simona, a terminat prânzul Rămâne de curățit masa, spălat vasele, șters și pus la loc în dulap Soluții Există un număr de soluții care depinde de numărul de persoane (sau procesoare!) care sunt disponibile Se remarcă următoarele CAPITOLUL SISTEME DE CALCUL PARALEL • Modul secvențial cu utilizarea unei persoane (procesor serial) Mama curăță masa, spală vasele și le pune în dulap, în timp ce Tata duce copii în parc • Modul secvențial utilizând patru persoane (procesoare pipe-line): Tata curăță masa când s-a terminat prânzul; loan spală vasele, când tata a terminat de curățat; Toma șterge vasele, când loan a terminat; Simona le pune în dulap, când Toma a terminat; Mama pleacă la cumpărături! • Modul bandă rulantă (pipe-line) utilizând patru persoane (procesor vectorial): Tata ia un obiect de pe masă, i- dă lui loan și pleacă să aducă altul; loan spală obiectul primit, i- dă lui Toma și așteaptă să primească alt obiect de la Tata; Toma șterge obiectul primit, i- dă lui Simona și așteaptă să primească un alt obiect de la loan; Simona șterge obiectul primit și așteaptă să primească altul de la Toma Mama îi privește cu admirație! Din păcate, pot să apară probleme dacă loan spală încet vasele Datorită sincronizării, ceilalții trebuie să aștepte după el! • Modul de utilizare a mai multor persoane (procesor matriceal) Se presupune că familia este suficient de numeroasă ca fiecare să fie responsabil de un singur obiect de pe masă Șeful familiei direcționează orice mișcare determinând fiecare persoană să facă simultan același lucru Dacă șeful spune ”curățați”, fiecare va lua un obiect de pe masă Când șeful spune "spălați”, fiecare va spăla obiectul său ș a m d Șeful poate decide ca anumiți membrii ai familiei să nu lucreze De exemplu, poate cere să fie spălate numai pahare, astfel încât o serie de membrii rămân momentan fără activitate • Modul selectiv de transmitere a mesajelor (procesare paralelă cu transmitere de mesaje) Obiectele care se curăță sunt "mesaje” Spre deosebire de modelul anterior, în care mesajele sunt transmise unidirecțional, mesajele pot fi transmise în mai multe direcții: PROCESARE PARALELĂ - ANALOGIE CU VIAȚA COTIDIANĂ Dacă un obiect este curat, Tata îl transmite direct lui Simona; Dacă Toma primește un obiect murdar, îl returnează lui loan Transmiterea obiectelor se poate face printr-un spațiu rezervat comunicării (masă, zonă tampon, buffer) care admite o anumită încărcare • Modul masă comună (procesare paralelă cu memorie comună) Obiectele murdare, ude sau curate stau pe aceeași masă Fiecare persoană dispune de un spațiu mic de depozitare Astfel, anumite obiecte, ca cele din apa de spălare, nu sunt accesibile tuturor persoanelor, numai cele de pe masă Este necesară o atenție sporită pentru a nu respăla sau reșterge lucrurile curate, respectiv uscate Soluția grupului de procesoare Modele similare se pot construi înlocuid oamenii cu procesoare Modelele depind de numărul și tipul elementelor de procesare Există cinci modele hardware: secvențial sau serial (model convențional), procesor pipe-line și procesor vectorial (procesoare care transmit datele într-o direcție bine definită), procesor matriceal (procesoare "proaste” care ascultă de un controlor), transmitere de mesaje (mai multe procesoare care lucrează împreună și transmit date conform unui protocol stabilit); memorie comună (mai multe procesoare care lucrează asupra aceluiași lot de date și asupra unor date locale) Calculatorul serial este constituit din două părți: unitatea centrală de procesare (CPU) de dimensiune mică; memoria care are o dimensiune mare CPU lucrează tot timpul, pe când memoria așteaptă: din când în când CPU pune sau extrage informații în sau din memorie De aceea, la un momemt dat, doar o parte mică a hardwarelui participă la calcul Un exemplu similar, din viața cotidiană, a fost propus de T Jebeleanu: o companie în care șeful lucrează zi și noapte, pe când cei de angajați nu lucrează numai când șeful vine în biroul lor Modalitățile de creștere a eficienței activității din companie sunt: CAPITOLUL SISTEME DE CALCUL PARALEL angajarea mai multor persoane (mai multă memorie) - activitatea este îmbunătățită, dar eficiența descrește; angajarea unui nou șef mai competent (un CPU mairapid) - efectul este similar cu cel din cazul anterior; șeful este suplinit de mai mulți directori (procesoare) cu sarcini precise: unii aduc informațiile de la angajați, alții le prelucrează, alții decid unde să fie trimise rezultatele, alții transmit rezultatele - acești directori lucrează în paralel! se angajează șefi de echipă (memorii cache care introduc un anumit paralelism în utilizarea hardware-ului, de partea memoriei); se unesc mai multe companii (paralelism în sisteme cu granulație mare) -intervin probleme de comunicare între șefi, iar organizarea întregului ansamblu este mai dificilă decât problema inițială a organizării companiei mici NIVELURI DE PARALELISM Paralelismul este utilizat în scopul reducerii timpului de calcul Nivelurile de aplicabilitate ale ideii de paralelism corespund anumitor perioade de timp: paralelism la nivel de job: (a) între joburi; (b) între faze ale joburilor; paralelism la nivel de program: (a) între părți ale programului; (b) în anumite cicluri; paralelism la nivel de instrucțiune: între diferite faze de execuție ale unei instrucțiuni; paralelism la nivel aritmetic și la nivel de bit: (a) între elemente ale unei operații vectoriale; (b) între circuitele logicii aritmetice CLASIFICAREA SISTEMELOR PARA-LELE La nivelul cel mai înalt, se urmărețe maximizarea vitezei de execuție a job-urilor Execuția unui job poate fi împărțită în mai multe faze secvențiale, fiecare având nevoie de anumite programe și anumite resurse hard ale sistemului (faze tipice: compilare, editarea legăturilor, execuția, tipărirea rezultatelor) Deoarece operațiile de intrare/ieșire sunt mai lente decât unitatea centrală, se introduc mai multe canale de intrare/ieșire sau procesoare de periferice, care pot opera în paralel cu execuția programului In interiorul unui program pot exista părți de cod care sunt independente una față de alta și pot fi executate în paralel de mai multe procesoare Un alt exemplu sunt instrucțiunile repetitive a cărui execuție secvențială la anumit ciclu nu depinde de datele din ciclul precedent, astfel încât se pot executa în paralel atâtea cicluri câte procesoare sunt disponibile Execuția anumitor instrucțiuni poate fi împărțită în mai multe suboperații și poate fi aplicat principiul trecerii datelor printr-o "conductă” constituită din mai multe procesoare (procesoare pipeline) La nivelul cel mai de jos se poate interveni în logica aritmetică realizând operații pe toți biții unui număr în paralel La construirea unui sistem paralel apar o serie de probleme: Câte procesoare să fie utilizate? Cât de mare să fie viteza fiecărui procesor? Cum trebuie procesoarele interconectate? Cât de mare să fie memoria? Să se utilizeze o memorie comună sau memorie locală fiecărui procesor? Eficiența unui program paralel depinde de calculatorul pe care se implementează și astfel de răspunsurile la aceste întrebări CLASIFICAREA SISTEMELOR PARA- LELE In ultimii douăzeci de ani, au fost studiate și construite sute de arhitecturi diferite, de la mașini cu procesoare foarte rapide total interconecate, până la mașini cu mii de procesoare lente Diferențele dintre arhitecturile paralele existente la momentul actual pot fi cuantificate prin parametrii următori: CAPITOLUL SISTEME DE CALCUL PARALEL numărul de procesoare și puterea procesorului individual; complexitatea rețelei de conectare și flexibilitatea sistemului (sistemul poate fi utilizat la rezolvarea unei clase mari de probleme?); distribuția controlului sistemului, adică dacă masivul de procesoare este condus de un procesor sau dacă fiecare procesor are propriul său controler; mecanismul de control a sistemului; organizarea memoriei primă clasificare a sistemelor paralele se face în funcție de numărul de procesoare Termenul consacrat este cel de granulație Sistemele cu un număr mare de elemente de procesare, fiecare tratând un volum mic de date, au o ”granulație fină” (de obicei de ordinul a de procesoare) Sistemele cu număr mic de procesoare care fiecare tratează un volum mare de date, sunt granulate grosier (de obicei, aproximativ procesoare) Granulația medie se consideră ca fiind cea de de procesoare Dintre sistemele cu granulație grosieră se remarcă sistemele pipeline, sistemele cu structuri de interconectare a procesoarelor tip arbore sau de tip inel, sistemele cu interconectarea vecinilor apropiați, sistemele cu interconectare prin magistrală (bus) Dintre sistemele cu granulație fină se remarcă sistemele tip hipercub, sistemele organizate pe biți, circuitele reconfigurabile prin comutatoare sau sistemele sistolice Funcție de tipul procesoarelor din sistemul paralel, sistemele paralele sunt: omogene, dacă conțin procesoare de același tip, heterogene, dacă conțin procesoare de tipuri diferite Din punct de vedere al mecanismului de control se disting mai multe categorii: grup de procesoare per instrucțiune unică: la un timp dat numai un set mic de instrucțiuni este într-o anumită fază de execuție Două categorii se deosebesc: • procesoare matriceale care efectuează calcul paralel sincronizat: instrucțiuni individuale operează asupra unui număr mare de date (asemenea procesoare necesită o memorie modulară), • calculatoare care efectuează mai multe instrucțiuni concomitent, grup de procesoare per instrucțiuni multiple CLASIFICAREA SISTEMELOR PARA-LELE Din punct de vedere al organizării memoriei se disting două categorii de sisteme: multiprocesoare cu memorie comună; multiprocesoare cu memorie distribuită După modul de comunicare a datelor între procesoare din cadrul unei rețele se disting: sistem multiprocesor stâns cuplat, în care procesoarele cooperează intens pentru soluționarea unei probleme; sistem multiprocesor slab cuplat, în care un număr de procesoare independente și nu necesar identice comunică între ele printr-o rețea de comunicare Clasificarea cea mai des utilizată este următoarea (clasificarea Flynn) Conform acestei clasificări calculatoarele paralele aparțin unuia din următoarele patru sisteme: • SISD: sistem cu un singur set de instrucțiuni și un singur set de date; • SIMD: sistem cu un singur set de instrucțiuni și mai multe seturi de date; • MISD: sistem cu mai multe seturi de instrucțiuni și un singur set de date; • MIMD: cu mai multe seturi de instrucțiuni și mai multe seturi de date Sistemele paralele actuale fac parte din categoria SIMD sau MIMD In primul caz procesarea paralelă are loc în pași sincronizați (sistemul este condus printr-un unic controlor - respectă același tact dat de un ceas comun), iar în cazul al doilea, în pași independenți (fiecare procesor are propriul controlorul - ceas propriu) Procesarea concurentă îmbracă două forme: pipelining paralelism Un procesor pipeline conține un număr de procesoare aranjate astfel încât datele de ieșire ale unuia să constituie datele de intrare ale altuia Procesoarele unui calculator paralel sunt aranjate într-o structură oarecare care permite operarea simultană a mai multor secvențe a unui set de date Diferența fundamentală constă în faptul că operațiile pe un procesor pipeline se realizează prin executarea în secvență a mai multor sarcini distincte, asigurându-se astfel doar un grad limitat de paralelism (exploatează operațiile complexe) CAPITOLUL SISTEME DE CALCUL PARALEL SISTEME SISD Un sistem SISD reprezintă mașina serială clasică, care execută o singură instrucțiune la un moment dat CPU (IS) Procesor (DS) Date o instrucțiune o data Figura : Schema unui sistem SISD (calculatorul serial) Schema și funcționarea unui sistem SISD sunt prezentate în figurile , respectiv Figura : Funcționarea unui sistem SISD SISTEME SIMD Un sistem SIMD este compus dintr-o unitate de control (MCU-master control unit) și un număr de procesoare identice Unitatea de control transmite aceeași instrucțiune la fiecare procesor în parte Instrucțiunile sunt executate în același timp, adică sunt sincrone Fiecare procesor SISTEME SIMD are o memorie privată și anumite sisteme permit accesul la o memorie globală Fiecare procesor operează asupra unui cuvânt ( sau biți) sau asupra unui operand format dintr-un singur bit, în fiecare ciclu de memorie MCU (DM) Date (IS) Rețea Unitate o instrucțiune de control mai multe date Figura : Schema unui sistem SIMD Schema și funcționarea unui SIMD sunt prezentate în figurile , respectiv Figura : Funcționarea unui sistem SIMD Sistemele SIMD sunt indicate pentru rezolvarea problemelor care pot fi descompuse în subprobleme ce presupun un efort de calcul similar (descompunere regulată) Asemenea probleme sunt: CAPITOLUL SISTEME DE CALCUL PARALEL • procesarea de imagini: grupuri contigue de pixeli sunt asignate unui procesor, grupuri învecinate fiind asociate cu procesoare învecinate (vezi anexa ); • dinamica fluidelor: traiectoriile moleculelor unui gaz sunt urmărite relativ la o grilă, fiecare procesor fiind responsabil pentru o secțiune din grilă; • automate celulare, care sunt sisteme elementare a căror comportare colectivă simulează fenomene complexe din natură Un automat celular formează în spațiu o grilă sau o latice Fiecărei celule i se asociază o variabilă de stare care se poate schimba după anumite intervale, conform unor reguli Se disting două tipuri de sisteme SIMD: organizate pe cuvânt, organizate pe bit Operațiile aritmetice într-un sistem organizat pe cuvânt sunt similare cu cele efectuate de mașinile seriale Algoritmii pentru mașinile organizate pe bit depind de lungimea în biți a datelor și nu de cardinalul mulțimii de date Mai multe instrucțiuni sunt necesare pentru a efectua o operație aritmetică simplă Timpul aritmetic este mai lung decât cel dintr-un sistem organizat pe cuvânt Creșterea vitezei nu se obține prin creșterea vitezei fiecărui procesor în parte, ci prin utilizarea a cât mai multe procesoare simultan In implementarea funcțiilor numerice, ca de exemplu, rădăcina pătrată, se poate profita de avantajele operației pe biți și produce algoritmi aproximativi egali în efort cu o operație de multiplicare Exemplele clasice de sisteme SIMD sunt procesoarele vectoriale, procesoarele matriceale și anumite matrici sistolice; SISTEME MISD Exemplele clasice de sisteme MISD sunt procesoarele pipeline care efectuează operații asupra unui set mic de date Intr-un procesor pipeline o singură dată este operată de diferite faze ale unei unități funcționale, paralelismul fiind realizat prin simultana execuție a diferitelor etape asupra unui șir de date secvențiale Schema unui sistem MISD este prezentată în figura SISTEME MIMD (DS) Date Unitate mai multe de control instrucțiuni o data Figura : Schema unui sistem MISD SISTEME MIMD Intr-un sistem MIMD, fiecare procesor poate executa diferite operații pe date distincte de cele ale altor procesoare Fiecare procesor funcționează independent de celelalte utilizând propriul contor de program și setul propriu de instrucțiuni Orice comunicare între două procesoare trebuie specificată explicit Unitate mai multe de control instrucțiuni mai multe date Memorie comună Figura : Schema unui sistem MIMD Schema și funcționarea unui sistem MIMD sunt prezentate în figurile , respectiv Seturile de instrucțiunile corespunzătoare unor procesoare distincte sunt independente unele de altele, execuția unei instrucțiuni nu influențează execuția alteia și în consecință toate procesoarele pot opera la orice moment Spre deosebire de sistemul SIMD, în MIMD, modul de operare este asincron Fiecare procesor are CAPITOLUL SISTEME DE CALCUL PARALEL Figura : Funcționarea unui sistem MIMD memoria sa locală, unitate aritmetică, contor de instrucțiuni și poate comunica cu celelalte procesoare printr-o rețea In cazul unui SIMD sau unui MISD timpul de execuție a unei operații elementare necesită o unitate de timp, astfel încât este facilitată sincronizarea între elementele de procesare (procesoarele respectă același tact dat de un ceas comun) Sistemele MIMD permit executarea asincronă a proceselor unei aplicații (fiecare procesor are un ceas propriu) Alegerea configurației rețelei are o influență importantă asupra vitezei de execuție Sistemele actuale MIMD au un număr de procesoare mai mic decât cel al sistemelor SIMD INSTRUCȚIUNI CONDIȚIONALE ÎN SISTEMELE SIMD ȘI MIMD Execuția unui program pe un procesor într-un SIMD depinde de setul de date asupra căruia se operează La prima vedere, în cazul unor instrucțiuni condiționale asupra acestor date, execuția a pe două procesoare poate să fie diferită Pentru a rezolva acestă problemă fiecare procesor dintr-un sistem SIMD deține un registru-permisiune (enable register) pentru calificarea operațiilor de scriere Numai acele procesoare care au registrul-permisiune setat pe ”true” pot scrie rezultatele calculelor în me- SISTEME PARTIȚIONABILE mone Opus acestei situații este comportarea unui sistem MIMD care nu întîmpină dificultăți la întîlnirea expresiilor condiționale: fiecare procesor decide codul instrucțiunii proprii ce se va executa Dificultăți apar la încercarea de sincronizare a proceselor datorită timpilor diferiți de execuție Se consideră, pentru exemplificare, și un sistem MIMD (* Secvență program SIMD *) instrucțiune if not condiție then enable =False instrucțiune enaă/e=not enable instrucțiune instrucțiune enaă/e=True instrucțiune instrucțiune un același algoritm rulat pe un sistem SIMD (* Secvență program MIMD *) instrucțiune if condiție then instrucțiune else { instrucțiune instrucțiune } instrucțiune instrucțiune In primul caz se efectuează un număr de operații independent de valoarea variabilei condiție, pe când în al doilea caz, numărul de instrucțiuni executate variază funcție de condiție SISTEME PARTIȚIONABILE Un exemplu de sistem partiționabile este SIMD multiplu Acesta este un sistem de procesare paralelă care poate fi reconfigurat dinamic pentru a opera ca una sau mai multe mașini SIMD independente, de dimensiuni diferite mașină multiplă SIMD constă dintr-un număr n de elemnte de procesare, o rețea de interconectări și q unități de control, cu q to mailbox , respectiv receive from mailbox Procesul emitent nu controlează care proces recepționează mesajul Această formă de comunicare este utilizată în majoritatea limbajelor logice concurente: expeditorul adaugă mesaje la sfârșitului unui șir de mesaje, iar receptorul inspectează șirul, extregând eventual un mesaj dorit Un canal de comunicare este definit ca o legătură unidirecțională între două procese (unul este emițător, iar altul receptor) Canalele de comunicare dintre procese pot fi statice când legăturile sunt setate în timpul compilării, sau pot fi dinamice când sunt create și distruse în timpul execuției unei aplicații Primitivele asociate transmiterii prin canale sunt send expresie via canal , respectiv receive expresie via canal Transmiterea de mesaje implică cooperarea ambelor părți Comunicarea se poate face: unu la unu: prin specificarea identificatorului de proces, definirea unui canal distinct între procese sau definirea celor două procese ca singurele părți care pot utiliza cutia poștală (tata dă lui loan un vas, dacă loan este pregătit să- primească); mai mulți la unul: un singur proces este pregătit să accepte mesaje de la o mulțime de procese (mai multe persoane care strâng vasele, unul singur care le spală); unul la mai mulți: mai mulți receptori potențiali și un singur emițător Există două variante: (a) unul dintre receptori va accepta comunicarea de la emițător (mai mulți spălători de vase, unul singur care aduce vasele); (b) toți receptorii vor accepta comunicarea (tata spune copiilor să tacă); mai mulți la mai mulți: mai mulți receptori potențiali și mai mulți emițători, în variantele: (a) un receptor acceptă comunicarea de la un emițător; (b) toți receptorii acceptă comunicarea de la oricare dintre emițători; CAPITOLUL SISTEME DE CALCUL PARALEL (c) anumite combinații între receptori și emițători vor fi stabilite într-o comunicare CLASIFICAREA REȚELELOR DE INTERCONECTARE într-un sistem paralel cu memorie distribuită procesoarele sunt conectate printr-o rețea prin intermediul căreia comunică Intr-un sistem ideal fiecare element este conectat cu oricare altul In practică, aceast tip de interconectare este posibil numai pentru un număr redus de procesoare In construirea calculatoarelor paralele se ține seama de clasa de probleme care urmează a fi rezolvate cu mașina respectivă și de limitarea numărului de conexiuni ale fiecărui element de procesare Reconfigurarea (logică) este permisă, astfel încât este posibilă construirea unei varietăți mari de configurații și schimbarea lor pe parcursul calculului Din păcate, reconfigurarea are un efect negativ asupra timpului de calcul: dacă cerințele de interconectare pentru un algoritm dat nu corespund configurației rețelei, atunci comunicarea datelor afectează viteza de calcul Rețele de interconectare pot fi clasificate în trei categorii: fiecare element este conectat cu un anumit număr de alte elemente Structura rețelei depinde de problema care se rezolvă; fiecare element este conectat cu oricare altul prin intermediul unei punți de legătură, numită ”switchboard” (punte de comutatoare) Prin această modalitate de conectare se garantează că într-un număr mic de pași pot fi conectate oricare două procesoare Se utilizează și conexiunile directe cu procesoarele învecinate, legătura fiind avantajoasă pentru un număr mare de algoritmi paraleli; fiecare element este conectat direct cu oricare altul: această construcție este, în prezent, practic inexistentă, exceptând mașinile cu număr mic de procesoare Există mai multe încercări de conectare completă a elementelor de procesare: (a) prin magistrală (bus): costul unei asemenea interconectări este redus, dar nu este practică pentru un număr mare de procesoare, deoarece apar întârzieri la transmiterea de date de la un proces la altul simultan Dacă toate cele n procesoare doresc să comunice simultan, toate cele n comunicări vor fi seriale și unul dintre procesoare va fi întârziat cu un timp egal cu comunicările celorlalte n — procesoare; CLASIFICAREA REȚELELOR DE INTERCONECTARE (b) prin conexiuni directe: fiecare procesor este conectat la oricare alt procesor utilizând n(n — ) legături unidirecționale Avantajul este posibilitatea de comunicare simultană a procesoarelor, adică nu există întârzieri datorate rețelei Când n este mare, costul unei asemenea conectări este foarte mare Dacă, de exemplu n = , sunt necesare legături Cum un procesor este implantat pe un singur cip, numărul de pini ceruți pentru realizarea tuturor conectărilor depășește posibilitățile tehnologiilor actuale Rețeaua de interconectare poate fi specificată printr-un graf G = (N, EȚ în care fiecare nod i E N reprezintă un procesor, iar fiecare latură (î,J) G E reprezintă o legătură uni- sau bi- direcțională între procesoarele i și j Interconectarea este caracterizată prin doi parametrii: diametrul rețelei care este distanța maximă parcursă de un mesaj între două noduri (elemente de procesare) arbitrare ale rețelei; gradul unui nod care este numărul de procesoare cu care nodul este conectat (măsoară costul interfeței hardware a fiecărui nod) Exemplul Structura liniară de interconectare In structura liniară oricare procesor Pi este conectat direct cu vecinii săi Рг і și Рг+і Utilizarea unei asemenea structuri este indicată pentru anumiți algoritmi, ca de exemplu sortarea par-impar Diametrul rețelei cu p procesoare este p — , iar gradul unui nod este doi Exemplul Structura ciclică de interconectare Conectarea ciclică a n procesoare este caracterizată prin diametrul n/ și gradul unui nod egal Exemplul Structura de interconectare tip arbore binar Intr-un sistem construit pe baza unui arbore binar (figura a), fiecare procesor de la un nivel к este interconectat direct cu exact două sau zero procesoare de la nivelul к + Fiecare procesor de la nivelul к + este conectat direct cu un singur procesor de la nivelul /г, exceptând procesorul de la nivelul zero, considerat nod rădăcină O asemenea structură de tip arbore de ordin n, notată An, (cu n — noduri), este, de exemplu, utilizată cu succes pentru adunarea a " - numere In fiecare element de la nivelul n — se memorează o valoare numerotată de la la n — Fiecare procesor aflat în nodurile interne ale arborelui are de efectuat o operație de adunare, iar nodul rădăcină furnizează rezultatul final Arborii binari sunt asociați unor algoritmi fundamentali, cum sunt, de exemplu, cei de sortare, căutare, evaluare a expresiilor algebrice ș a m d In algoritmii de evaluare a expresiilor aritmetice, fiecare procesor aflat într-un nod intern al arborelui efectuează o anumită operație, iar nodul rădăcină furnizează rezultatul final CAPITOLUL SISTEME DE CALCUL PARALEL (c) Figura : Interconectarea (a) tip arbore binar (b) grilă (c) tor (d) rețea în X Numărul minim de niveluri ale arborelui indică numărul de etape în care poate fi evaluată o expresie aritmetică, în paralel Numărul de etape este, evident, cel mult egal cu cel necesar într-o evaluare serială Exemplul Structurile de tip grilă și tor Intr-o grilă de n X m noduri-procesoare fiecare element este conectat cu patru vecini, ca în figura b In cazul particular al aceluiași număr de procesoare în ambele direcții, n, structura este numită latice și este notată Ln Dacă dimensiunea n este pară, laticea poate fi divizată în patru subrețele având aceleași proprietăți ca și laticea inițială Structura este des întâlnită în sistemele MIMD, deoarece permite, cu ușurință, reconfigurarea logică la structura de interconectare cerută de problema ce se rezolvă O asemenea rețea cu p noduri are diametrul y/p și gradul maxim al unui nod egal cu patru Drumul mesajului de la un nod sursa la un nod destinație este numărul de mișcări pe linii și coloane pe care le efectuează mesajul Apropiată structurii de latice este torul (figura c ) Elementul de procesare corespunzător punctului (г, j) din tor, Рр, este conectat cu P u-i Д; j + p г-lJ Pi+ j unde i ± și j ± sunt considerați modulo n, ca în conectarea ciclică S-au construit de asemenea rețele cu conectarea celor mai apropiați opt vecini Prin conectarea vecinilor prin comutatoare se obține (figura d) o rețea în X (X-net) Exemplul Structura de tip hipercub Cele n vârfuri și n n laturi ale unui cub n-dimensional constituie nodurile-elemente, respectiv interconectările unui hipercub, notat Hn O structură tip hipercub n-dimensional consistă în " procesoare interconectate într-un cub n-dimensional după cum urmează Fie Ьп іЬп b reprezentarea binară a lui г, unde Р г, Р г+і п, n/ - — >- — •- — •“ inițial amestecate (a) (b) (c) Figura : Cazul m = (a) permutarea procesoarelor (b) conectare conform permutării inverse (c) deplasare circulară a biților Se convine notația Gm pentru o conectare de tip amestecare perfectă Gm este un graf Eulerian deoarece permite transmiterea unui mesaj de la un procesor la oricare altul Exemplul Alte structuri Structurile de interconectare enumerate mai sus nu sunt singurele existente în implementare Au fost construite o serie de structuri mai complicate, ca cele din figura RECONFIGURAREA LOGICĂ A REȚELELOR DE INTERCONECTARE Dacă se dorește implementarea unui algoritm ce necesită o structură specifică a rețelei ce nu corespunde cu structura fizică de interconectare, este necesară proiectarea noii structuri pe structura dată (reconfigurare logică) Problema alocării proceselor la procesoarele unui sistem multiprocesor este cunoscută sub numele de problema mapării Structura de comunicare a unei aplicații este dată de obicei sub forma unui graf în care nodurile reprezintă procesoarele, iar laturile reprezintă comunicațiile între procesoare Problema mapării constă astfel într-o transpunere a grafului problemei pe graful rețelei fizice disponibile O proiecție a unui graf G pe un alt graf H este o injecție a nodurilor lui G în H Costul de dilatare a proiecției lui G în H este distanța maximă în H dintre imaginile CAPITOLUL SISTEME DE CALCUL PARALEL PO PI P P P P P P (a) PO PI P P P P P P (b) Figura : Cazul m = (a) conectare conform permutării inverse (b) plus interconectarea anumitor elemente oricăror două noduri vecine ale lui G Acest cost este un fundament teoretic pentru evaluarea performațelor relative a două rețele de interconectare Pentru optimizarea efortului de comunicare se caută transpunerea care minimizează costul de dilatare Costul ideal de dilatare este Exemplul Sortarea bitonică necesită o structură de conectare de tip amestecare perfectă Dacă calculatorul paralel de care se dispune are o structură de tip hipercub, , sau latice £, problema se rezolvă prin proiectarea grafului G pe structura dată Astfel, G* poate fi proiectat pe un tor ce provine din laticea L sau P , după cum se observă în figura Se construiește structura intermediară P prin eliminarea ciclurilor de lungime unu și transpunerea conexiunilor simple și duble din G în interconectări In principiu, se caută transpunerea : , în sensul că fiecare legătură logică directă să fie transpusă pe o legătură fizică directă (cost dilatare ) De multe ori acest lucru nu este posibil De exemplu, pentru legătura logică P — P din figura (c) sunt utilizate două legături fizice și, deci, un nod (procesor) intermediar (analog sunt utilizate procesoare pentru comunicarea prin legătura logică P — / din figura b) Dacă informațiile se scurg în același ritm, de la un procesor la altul, atunci comunicarea Fi — P (respectiv P — P ) va întârzia procesul Exemplul Arborii binari de ordin , , și pot fi proiectați : pe o grilă de RECONFIGURAREA LOGICĂ A REȚE-LELOR DE INTERCONECTAREA Figura : Alte structuri (a) stea (b) conectare completă (c) matrice sistolică (d) X-arbore Figura : Proiectare G pe tor: (a) P (b) proiectare P pe L (c) proiectare pe tor din , ordin , , , respectiv (vezi figura (a)) Din păcate, arborii binari de ordin mai mare sau egal cu nu pot fi proiectați : pe o grilă, oricare ar fi ordinul acesteia Demonstrația se bazează pe faptul că un arbore cu ordin cel puțin are de puncte la distanță de cel mult laturi de nodul rădăcină, iar orice grilă conține cel mult de asemenea puncte Exemplul Fie de exemplu o grilă bidimensională de procesoare x Transpunerea unei structuri circulare (inel) pe rețea în ordinea crescătoare a numărului de procesor se face ca în figura (a) Această transpunere nu este optimă din punctul de vedere al comunicărilor Distanța fizică dintre perechile de procesoare ( , ), ( , ), ( , ) este extrem de mare, chiar dacă procesoarele componente sunt considerate vecini Distanța maximă dintre doi vecini ai inelului este CAPITOLUL SISTEME DE CALCUL PARALEL (b) Figura : (a) Proiectare B pe laticea (b) Un arbore binar într-un cub -dimensional (costul de dilatare este ) Un exemplu de transpunere optimă a inelului pe grila dată este prezentat în figura (b) Distanța maximă între doi vecini este (costul de dilatare este minim) (b) Figura : Proiectare Ci pe grila de dimensiune X (a) cu respectarea numărului de procesor (b) optim Exemplu Multiprocesoarele hipercub sunt cele mai populare tipuri de mașini paralele Din punct de vedere ingineresc, structura de tip hipercub este ușor de realizat Din perspectiva programării, structura hipercub este indicată deoarece conține o serie de subgrafuri ce reprezintă structuri computaționale utilizate în rezolvarea multor probleme: structura liniară, structura ciclică, grile D (structuri regulate) SISTEME GAZDA Spre deosebire de latici, hipercuburile permit transpunerea și a unor structuri iregu-late cum este arborele binar Un hipercub n-dimensional conține un X-arbore binar cu n nivele (vezi figura (b)) și, implicit, arborele binar asociat structură logică ciclică cu n procesoare poate fi transpusă pe o latice sau un hipercub suficient de mare Transpunerea : este posibilă numai în cazul când n este par, altfel va exista cel puțin o legătură de ordin doi, deoarece orice ciclu dintr-un hipercub este de lungime pară Exemplul Un algoritm paralel este descompus în mai multe unități care pot h executate în paralel numite procese Prin evidențierea legăturilor de comunicare dintre procese se definește o rețea logică de interconectare pentru repartizarea proceselor pe procesoarele unui sistem paralel Repartizarea se face funcție de numărul de procesoare disponibile Problema constă deci într-o reconhgurare logică a grafului de comunicări dintre procese pe graful de interconectare fizică dintre procesoare In cazul ideal un proces este implementat pe un procesor SISTEME GAZDĂ Pentru a menține funcționalitatea unui sistem în regim secvențial masivele de procesoare sunt privite ca un calculator independent care este "atașat” unei aplicații lansate pe un calculator serial aflat într-o aceeași rețea de interconectare cale directă pentru a permite unui utilizator să se cupleze la mașina paralelă este apelarea unor programe utilitare care permit utilizatorului să folosească calculatorul paralel pentru scopul său Aceste programe rulează sub controlul sistemului de operare al calculatorului gazdă Ele sunt lansate printr-un fel de interpretor de comenzi Complexul calculator - utilitare este numit sistem gazdă (host) La nivelul sistemului de operare a mașinii gazdă se definesc: nucleul: care permite intercomunicarea dintre procese; kernel: este o extensie a nucleului pentru funcții precum crearea și distrugerea obiectelor definite de procese, asocierea obiectelor la spațiul adresabil, propra-garea evenimentelor speciale (întreruperi); Pose (Parrallel Operating System Extension): se ocupă de organizarea memoriei și a proceselor, manipularea fișierelor, a dispozitivelor de intrere/ieșire; aplicația-utilizator: determină complexitatea și distribuirea proceselor pe nodurile masivului de procesoare Sistemul gazdă crează un model de acțiune a unor procese virtuale pe baza unui soft ce acționează ca un plan între aplicație și mașina paralelă CAPITOLUL SISTEME DE CALCUL PARALEL Capitolul PROGRAMARE PARALELĂ PROCESE CONCURENTE Un program este o descriere formală a unor acțiuni și date conform unui formalism convențional oarecare Un proces este o succesiune de acțiuni care sunt executate în mod secvențial Un proces este astfel activitatea rezultată ca urmare a execuției unui program de către un procesor Un program poate reprezenta descrierea unui număr oarecare de procese și mai multe procese pot fi executate pe același procesor (dispozitiv care execută instrucțiunile în mod secvențial, într-o succesiune dată Un program secvențial este descrierea unui singur proces Un program concurent descrie mai multe procese care vor fi executate în mod concurent pe un sistem de calcul Mai multe procese se execută în mod concurent (sunt concurente sau paralele) dacă executarea lor se suprapune în timp Două procese sunt concurente dacă prima instrucțiune a unui proces este lansată înainte de încheierea ultimei instrucțiuni a celuilalt proces MULTIPROGRAMARE ȘI MULTIPRO-CESARE Sistemele cu multiprogramare permit prezența simultană în memoria centrală a mai multor programe secvențiale (procese) ce se execută în paralel permițând folosirea în comun a resurselor sistemului cu scopul îmbunătățirii gradului lor de utilizare In aceste sisteme concurența are loc între programe diferite și nu între procese provenind din același program Paralelismul poate fi: CAPITOLUL PROGRAMARE PARALELA • logic, când există un singur procesor care este atribuit alternativ proceselor La un moment dat se execută fizic o acțiune corespunzătoare unui singur proces Având în vedere faptul că, alternativ, se execută acțiuni corespunzătoare diferitelor procese, acestea se desfășoară concurent (se lansează instrucțiunile unui proces înainte de a se fi executat toate instrucțiunile corespunzătoare celorlalte) Aceste procese sunt multiprogramate pe un sistem monoprocesor, • fizic, când fiecărui proces îi este atribuit în exclusivitate câte un procesor în acest caz, la un moment dat, se desfășoară efectiv instrucțiuni corespunzătoare mai multor procese Funcție de sistemul paralel utilizat denumirile sunt următoarele: dacă procesoarele sunt legate la o memorie comună prin intermediul căreia se poate realiza schimbul de informație între ele, sistemul este numit multiprocesor, iar procesele sunt multiprocesate; dacă se utilizează un sistem distibuit, format din noduri (unul sau mai multe procesoare legate la o memorie comună) legate între ele prin canale de comunicație, sistemul este numit rețea COMUNICARE ȘI SINCRONIZARE Problemele executate sub controlul unui sistem cu multiprogramare sunt exemple de procese paralele independente în majoritatea cazurilor însă, natura problemei de rezolvat impune interacțiunea între procesele unui program concurent din următoarele motive: • utilizarea în comun de către procese a unor resurse cum ar fi memoria comună, echipamente periferice, zone tampon etc; • cooperarea proceselor în sensul că un proces folosește anumite date rezultate din activitatea altuia Există două forme de interacțiune între procese paralele exprimate în următoarele primitive: comunicarea între procese distincte (transmiterea de informații între procese); sincronizarea astfel încât procesele să aștepte informațiile de care au nevoie și nu sunt produse încă de alte procese (restricții asupra evoluției în timp a unui proces) COMUNICARE ȘI SINCRONIZARE Primitivele de sincronizare sunt operații pe care nucleul sistemului de programare concurentă le pune la dispoziția programatorului în vederea rezolvării problemelor de sincronizare Nucleul reprezintă o interfață între program și suportul fizic Cele trei forme acceptate de sincronizare sunt următoarele: excluderea mutuala: se evită utilizarea simultană de către mai multe procese a unui resurse critice resursă este critica dacă poate fi utilizată doar de singur proces la un moment dat; sincronizarea pe condiție: se amână execuția unui proces până când o anumită condiție devine adevărată; arbitrarea: se evită accesul simultan din partea mai multor procesoare la aceeași locație de memorie In acest caz se realizează a secvențializare a accesului, impunând așteptarea până când procesul care a obținut acces și-a încheiat activitatea asupra locației de memorie Punctele dintr-un program unde elementele de prosesare comunică între ele sunt numite puncte de interacțiune Un punct de interacțiune împarte procesul în două etape Comunicarea permite ca execuția operațiilor pe un procesor să fie influențată de execuția pe alt procesor La sfârșitul primei etape procesoarele comunică între ele, după care trec într-o a doua etapă ce utilizează datele comunicate In execuția unui program paralel timpul asociat unei etape pentru un procesor oarecare este o variabilă aleatoare Motivele sunt multiple: • multiprocesorul poate fi constituit din procesoare cu viteze diferite; • operațiile efectuate de un procesor pot fi întrerupte prin sistemul de operare; • timpul de procesare pentru un element poate să depindă de datele de intrare Sincronizarea în sistemele paralele cu memorie comună într-un sistem paralel cu memorie comună procesele au acces la variabilele comune pe care le pot citi și scrie In acest caz sincronizarea este cerută pentru a preveni rescrierea unei date de către un proces înainte ca alt proces să efectueze citirea informației anterioare Intr-un program paralel asincron, procesele nu așteaptă introducerea datelor, ci continuă corespunzător informației care este conținută curent în variabilele globale Intr-un MIMD fiecare procesor va opera sub controlul unui ceas separat Dacă este CAPITOLUL PROGRAMARE PARALELA necesară accessarea unei date de către un procesor responsabilitatea faptului că valoarea datei este cea corectă revine utilizatorului Sincronizarea poate fi implementată cu ajutorul unor semafoare sau unor monitoare prin intermediul cărora accesarea unei variabile devine o operație indivizibilă: dacă mai multe proces încearcă să acceseze în același tip o variabilă comună, atunci numai unul singur va avea succes operație indivizibilă este una care odată pornită nu poate fi întreruptă (de exemplu tipăririle sau asignările) Secțiunile de cod care sunt protejate la intervenția mai multor procese simultan sunt numite secțiuni critice secțiune critică este tratată ca o operație indivizibilă (sincronizare implicită) Cu ajutorul secțiunilor critice se poate defini excluderea mutuală: numai un proces este admis a se afla în interiorul unei secțiuni critice la un moment dat, iar dacă două sau mai multe procese solicită simultan să intre într-o secțiune critică, alegerea uneia dintre ele se face într-un interval finit de timp (nu se "invită” reciproc) Semafoarele sunt des utilizate în mecanismele de sincronizare Un semafor este o variabilă întreagă care poate lua numai valori pozitive Pentru acest tip de dată se definesc două operații: incrementarea și decrementarea valorii (operații indivizibile) Considerând un semafor s (variabilă întregă), operațiile primitive admise asupra acestuia sunt P(s): procesul așteaptă până când s > , apoi decrementează s cu ; U(s): incrementează s cu Aceste operații sunt indivizibile Operația P poate provoca, în anumite condiții, blocarea unui proces, iar V, relansarea unui proces anterior blocat Semaforului îi este asociat un șir de așteptare Procesul blocat se introduce în șirul de așteptare unde stă până la relansarea lui printr-o operație V Dacă mai multe procese intenționează să execute simultan operații P sau V asupra aceluiași semafor, ele vor fi satisfăcute câte una într-o ordine arbitrară în scopul excluderii mutuale, secțiunile critice vor fi incluse între operații P și V asupra aceluiași semafor s, inițializat cu valoarea Primul proces care execută P(s) va intra în secțiunea critică, semaforul obținând valoarea zero Astfel, orice tentativă din partea altui proces de a executa o secțiune critică se va solda cu punerea în așteptare prin primitiva P După execuția de către primul proces a operației V se admite accesul unui nou proces la resursa critică Se exclud între ele secțiunile critice corespunzătoare aceleiași resurse, dar nu există nici un motiv pentru interzicerea accesului concomitent din mai multe procese la resurse critice diferite, caz în care se realizează o excludere mutuală selectivă Sincronizarea pe condiție se efectuează astfel: un proces este pus în așteptare executând o operație P asupra unui semafor și un alt proces îl relansează executând V asupra aceluiași semafor după ce a constatat îndeplinirea unei condiții COMUNICARE ȘI SINCRONIZARE Secțiunile critice sunt destinate excluderii mutuale O declarație de forma var v : shared t introduce o variabilă v de tip t, indicând faptul că ea reprezintă o resursă comună partajată de mai multe procese Accesul la această variabilă este permis doar în interiorul unei regiuni critice de forma region v do instruci', ; instrucn end Excluderea mutuală este asigurată prin faptul că la un moment dat un singur proces poate executa instrucțiuni corespunzătoare unei regiuni critice referitoare la o variabilă v Execuția unei secțiuni critice se desfășoară după cum urmează Dacă nici un alt proces nu se află într-o regiune critică referitoare la aceeași variabilă u, procesul continuă (execută instrucțiunile); dacă există un proces în interiorul unei astfel de regiuni critice, noul proces va fi introdus într-un șir de așteptare asociat resursei critice respective In momentul în care un proces părăsește o regiune critică, se activează unul din procesele care așteaptă în șirul asociat variabilei Pentru sincronizarea pe condiție s-au introdus regiunile critice condiționale care presupun punerea în așteptare a unui proces până la îndeplinirea unei condiții exprimate printr-o expresie logică Monitorul este asemenea unei doici a cărui permisiune sau ajutor trebuie cerut înaintea oricărei comunicări dintre două procese Dacă semafoarele sunt primitive de sincronizare ce pot fi calificate ca fiind de nivel scăzut (și dificil de utilizat), monitoarele oferă o sincronizare de nivel înalt Un monitor este un tip abstract de dată care consistă dintr-un set permanant de variabile ce reprezintă resursa critică, un set de proceduri ce reprezintă operații asupra variabilelor și un corp (secvență de instrucțiuni) Corpul este apelat la lansarea programului și produce valori inițiale pentru variabilele-monitor Apoi monitorul este accesat numai prin procedurile sale Accesul la aceste proceduri este permis numai procesoarelor selectate Funcția monitorului este îndeplinită în condițiile în care codul de inițializare este executat înaintea oricărui conflict asupra datelor și numai una dintre procedurile monitorului poate fi executată la un moment dat Monitorul crează o coadă de așteptare a proceselor care fac referire la anumite variabile comune (astfel încât primul sosit la coadă este primul servit atunci când ”ușa” este deschisă) Excluderea mutuală este realizată prin faptul că la un moment dat poate fi executată doar o singură procedură a monitorului Sincronizarea pe condiție se realizează prin mijloace mânuite explicit de către programator prin variabile de tip condiție și două operații signal și wait Dacă un proces care a apelat o procedură de monitor găsește condiția falsă, execută operația wait (punere în așteptare a procesului într-un șir asociat condiției și eliberarea monitorului) In cazul în care alt proces care execută o procedură a aceluiași monitor găsețe condiția adevărată, execută o operație signal (procesul continuă dacă șirul de așteptare este vid, altfel este pus în așteptare special pentru procesele care au pierdut controlul monitorului CAPITOLUL PROGRAMARE PARALELA prin signal și se va executa un alt proces extras din șirul de așteptare al condiției) Monitoarele au fost utilizate într-o primă etapă ca bază a limbajelor concurente Un aplicație într-un limbaj concurent spre deosebire de una într-un limbaj de programare paralelă presupune ca procese multiple să împartă același spațiu adresabil Intr-o serie de limbaje a fost incorporat conceptul de monitor pentru protejarea utilizării variabilelor globale (Pascal concurent, Pascal plus) Un program în Pascal Concurent are două tipuri de componente esențiale: procese și monitoare Un proces constă dintr-un număr de variabile locale și operațiile asupra lor (instrucțiuni de program), iar monitoarele permit comunicările dintre procese Sincronizarea este realizată via o variabilă globală de tip coadă, asupra căreia sunt definite trei operații: întârziere (delay), continuare (continue) și golire (empty) Etapa următoare în elaborarea limbajelor paralele a constat în alcătuirea unor primitive pentru calculul paralel pentru orice mașină cu memorie comună Pentru acest proiect s-au considerat două limbaje adecvate: C și Fortran Paralelismul este reprezentat la nivel de limbaj prin monitoare Implementarea monitoarelor este realizată printr-un set de macrouri care permit portabilitate, pentru crearea de procese noi, declararea variabilelor monitor, inițializarea monitoarelor, intrarea și ieșirea din monitoare, întârzierea și execuția proceselor din coadă Expresiile de drum sunt formate din numele unor operații reprezentate printr-un set de proceduri și o serie de operatori care definesc secvențele permise de executare a procedurilor Se consideră următoarele exemple: path ж; у; z end; - operatorul de secvență indică faptul că fiecare execuție a operației у trebuie să fie precedată de o execuție încheiată a lui x (analog pentru z) Dacă, de exemplu, prima cerere de prelucrare a resursei vizează operația y, procesul apelant va fi pus în așteptare până când un alt proces apelează și termină operația x nouă operație x poate fi executată după încheierea lui z', path ж, y, z end;-operatorul de concurențăindică execuția concurentă a operațiilor ж, у, z fără nici o restricție în ceea ce privește ordinea de executare și numărul de activări; path ж; (у + гг); и end;- operatorul de selecție ’+’ indică faptul că execuția unei operații ж poate fi succedată de o execuție a lui у sau o execuție a lui z, urmată de operația u Sincronizarea este asigurată prin evaluarea în mod automat a stării expresiilor de drum, înainte de acceptarea oricărei cereri din partea unui proces, ocazie cu care se ia decizia cu privire la activitatea operației cerute sau punerea în așteptare a procesului COMUNICARE ȘI SINCRONIZARE Sincronizarea în sistemele paralele cu transmitere de mesaje Intr-un sistem paralel cu transmitere de mesaje, comunicarea și sincronizarea sunt combinate într-un singur mecanism Expedierea unui mesaj este asincronă: procesul emitent trimite mesajul și continuă execuția fără să aștepte recepționarea mesajului Responsabilitatea delivrării mesajului revine sistemului de operare Comportarea asincronă este simulată prin introducerea unor procese-tampon (routing process) care acceptă mesajul de la sursă și îl trimite la destinație In majoritatea sistemelor de acest tip recepționarea mesajelor este sincronă, adică procesul receptor este blocat până când mesajul dorit este disponibil Mesajele asincrone pot să nu fie recepționate în ordinea transmiterii Există posibilitatea de priorizare a mesajelor importante și receptorul ia cunoștiință explicit de expedierea unui anume mesaj Sincronizarea se realizează prin programarea corectă a instrucțiunilor de transmitere și recepționare a mesajelor In anumite sisteme expedierea este și ea sincronă, procesul emitent fiind blocat până când procesul receptor este pregătit să primească mesajul Astfel, într-un algoritm sincronizat procesul ce ajunge la un punct de interacțiune este blocat până când procesul cu care urmează să comunice ajunge și el la punctul de interacțiune Odată ce mesajul a fost schimbat ambele proces continuă execuția Mesajele sincrone necesită ca ambele părți să fie de acord să comunice, pe când mesajele asincrone permit unei mesaj să fie transmit și apoi să "atârne” în sistem până când este recepționat In transmiterea unui mesaj se impun trei condiții: specificarea mesajului emis, respectiv recepționat (o expresie a cărei valoare reprezintă informația de transmis, la emitere, respectiv o listă a identificatorilor variabilelor care obțin valori din conținutul mesajului, la recepționare); specificarea destinației, respectiv sursei: (a) prin numirea directă a partenerului de comunicație (în special în modelul pipeline, al conductei - figura a) când fiecare proces cunoaște în permanență identitatea procesului de la care obc tine, respectiv căruia îi transmite mesaje; (b) prin numire globală, prin intermediul unui port de comunicare care joacă rolul unei interfețe (de exemplu în cazul modelului de interacțiune pro-ducător-consumator - figura b) Numele portului joacă rolul unei cutii poștale în care se depun și din care se extrag mesaje Porturile nu sunt asociate unui anumit proces, ci odată declarate sunt vizibile în mod egal CAPITOLUL PROGRAMARE PARALELA din toate procesele Numirea globală permite comnicarea fără explicitarea identității proceselor comunicante; (c) prin numire selectivă, prin intermediul unui port de comunicare atașat numai anumitor procese (cazul modelului de interacțiune în relația client-servant - figura c) Procesul posesor al portului nu specifică procesele cu care intră în comunicare, acestea din urmă fiind însă obligate să cunoască identitatea procesului care deține portul; specificarea gradului de sincronizare între procesul emițător și cel receptor proces Proces producător I I send receive Proces send receive Proces n- send receive Proces n Proces producător m Proces Proces Proces Proces Proces client client client p consumator consumator к Figura : Modele de interacțiune a proceselor: (a) modelul conductei (b) modelul producător-consumator (c) modelul client-servant Fie două procese pi și p între care se transmit mesaje în sensul pi —> p în principiu, procesul p poate încheia operația send, continându-și apoi execuția numai dacă au fost asigurate condițiile pentru recepționarea la destinație a mesajului transmis sau pentru memorarea acestuia în vederea recepționării ulterioare Procesul p încheie execuția unei receive și continuă rularea numai dacă există un mesaj disponibil și acesta a fost recepționat Pentru analiza gradului de sincronizare se pornește de la condițiile generale de desfășurare corectă a comunicării între procese (figura ): COMUNICARE ȘI SINCRONIZARE transmitere sincronă; transmitere asincronă; formă intermediară între primele două send receive PI P PI P PI P (b) (c) Figura : Transmitere (a) sincronă (b) asincronă (c) într-o formă intermediară în cazul în care implementarea operațiilor este de așa natură încât nu se prevede posibilitatea de memorare a mesajelor (memorie tampon) pe calea dintre cele două procese, p va fi blocat în momentul executării operației send până când p execută o operație receive Această formă presupune sincronizarea proceselor în vederea executării simultane a operațiilor send și receive, adică are loc o transmitere sincronă Pentru a evita blocarea proceselor care execută send, implementarea operației trebuie să prevadă memorarea mesajului tampon în cazul în care p nu este gata de recepție (nu a executat receive) Aceasta impune existența unei memorii-tampon în care mesajul se depune la send și din care este extras prin receive In cazul în care zona tampon este nelimitată, este garantată în orice moment posibilitatea depunerii unui mesaj Prin urmare, operația send poate fi executată neimpunând nici o așteptare asupra lui p (transmiterea fiind numită asincronă) In cazul în care memoria tampon este limitată, procesul emițător va aștepta la execuția unui send numai atunci când tamponul este plin și mesajul transmis nu poate fi depus Procesul blocat continuă după ce s-a creat un loc în tampon ca urmare a unui receive Blocarea la transmiterea sincronă poate fi evitată prin comunicarea selectivă prin instrucțiuni cu gardă de forma if c/i Й, g i , • • • ,gn C end; loop gi -P- îl, g , • • • ,gn in end CAPITOLUL PROGRAMARE PARALELA O gardă constă dintr-o expresie booleana urmată opțional de o operație send sau receive La un moment dat garda este deschisă dacă expresia este adevărată și executarea operației nu impune blocarea procesului Garda este închisă dacă expresia este falsă expresie adevărată și blocarea printr-un send sau receive pune garda într-o stare nedefinită Instrucțiunea alternativă se execută astfel: dacă există gărzi deschise, se alege la întâmplare una dintre ele și se execută operația send sau receive prevăzută, după care se trece la secvența de instrucțiuni corespunzătoare Dacă toate gărzile sunt închise, instrucțiunea se încheie, cazul fiind semnalat ca eroare Dacă gărzile sunt în starea nedefinită, procesul așteaptă până când una din gărzi se deschide (se execută o operație send sau receive dintr-o gardă în care expresia logică este adevărată) Instrucțiunea repetitivă are o execuție asemănătoare cu cea alternativă, reluându-se până când toate gărzile sunt închise (instrucțiunea încheiendu-se normal, fără semnalarea unei erori) Blocarea unui proces care execută o instrucțiune cu gardă are loc dacă nici una din operațiile send sau receive nu este executabilă și se deblochează în momentul în care oricare dintre ele se poate efectua Forma intermediară de transmitere cu tampon limitat se poate realiza și prin program prin introducerea unui proces tampon (figura b) Producătorii se blochează numai dacă tamponul este plin (se depășește numărul maxim de mesaje recepționate și care nu au fost re-emise), iar consumatorii se blochează dacă tamponul este gol EFICIENȚA problemă importantă în introducerea calculatoarelor paralele este eficiența calculului paralel relativ la calculul secvențial Scopul procesării paralele depinde de problema cere se rezolvă Astfel, • scopul poate h mazimizarea numărului de sarcini independente realizate în paralel într-o secțiune de calcul cu scop general sau interactivă; • scopul poate h maximizarea numărului de procese paralele care cooperează și minimizarea timpului de răspuns Teoretic, un program care lucrează cu p procesoare este executat de p ori mai rapid decât programul similar care lucrează cu un singur procesor Din păcate, în practică, viteza este mult mai mică primă sursă este dificultatea de a diviza un program în unități executabile în aceaași perioadă de timp Resursele de măsurare a performanței unui algoritm secvențial sunt timpul și spațiul de memorie Pentru evaluarea performanței unui algoritm paralel, timpul EFICIENȚA este resursa majoră Timpul în calculul paralel nu depinde numai de complexitatea operațiilor, ci și de complexitatea operațiilor de tip comunicare, sincronizare, limitele schimbului de date Viteza calculatoarelor paralele nu este derivată din puterea procesoarelor, ci din numărul lor Pentru un algoritm paralel se definesc două tipuri de optimalitate: • un algoritm paralel pentru rezolvarea unei probleme date este optim din punct de vedere al timpului (optimal în sens tare) dacă se poate demonstra că timpul de execuție nu poate fi îmbunătățit de alt algoritm paralel cu aceeași complexitate de calcul, adică nu poate fi îmbunătățit fără schimbarea numărului de operații; • un algoritm paralel pentru rezolvarea unei probleme date este optim din punct de vedere computațional (optimal în sens slab) dacă numărul total al operațiilor utilizate este asimptotic egal cu numărul de operații a celui mai rapid algoritm secvențial pentru problema dată Timpul de calculul paralel este perioada care s-a scurs de la inițierea primului proces paralel și momentul când toate procesele paralele au fost terminate Intr-un sistem cu memorie comună, timpul de calcul paralel a unui algoritm sincron se poate exprima ca sumă a mai multor valori: timpul de procesare de bază, care este suma perioadelor de timp necesare pentru fiecare etapă (între două puncte de interacțiune); timpul de blocare, care este perioda de timp în care procesul așteaptă date de intrare într-un program sincron, sau intrarea într-o secțiune critică, într-un program asincron timpul de sincronizare a comunicărilor necesar pentru anumite operații asupra unor variabile comune cu alte procesoare sau necesar execuției secțiunilor critice într-un sistem cu transmitere de mesaje, dacă timpul de execuție a unei operații aritmetice este mult mai mare decât timpul de transfer a datelor între două elemente de procesare, atunci întârzierea datorată rețelei este nesemnificativă, dar dacă este comparabil cu timpul de transfer, atunci timpul de transfer joacă un rol important în determinarea performanței programului In sistemele actuale bazate pe transputere, raportul dintre timpul necesar unei operații de comunicare și timpul necesar unei operații aritmetice este de ordinul — CAPITOLUL PROGRAMARE PARALELA Algoritmii pentru calculul paralel sunt diferiți de cei pentru calculul serial și pentru măsurarea performanței reale este necesară recodificarea algoritmilor seriali existenți Problemele care se discută, relativ la eficiență, sunt: viteza algoritmului paralel, pierderea de eficiență per procesor unitate la execuția algoritmului pe un sistem paralel Corespunzător, există două măsuri ale performanței algoritmilor paraleli: viteza și eficiența Fie P o problemă dată și n dimensiunea datelor de intrare Notăm cu То(и) complexitatea secvențială a lui P, ceea ce presupune că există un algoritm care rezolvă P în acest timp și, în plus, se poate demonstra că oricare algoritm secvențial nu rezolvă P mai repede Fie A un algoritm paralel care rezolvă problema P în timpul Tp(rt) pe un calcultator paralel cu p procesoare Atunci viteza atinsă de A este definită prin Deoarece Sp(zi) oc egală cu zero, se observă că anumiți algoritmi nu sunt eficienți pentru sisteme cu număr mare de procesoare De notat este faptul că Ti (и), timpul de execuție a algoritmului paralel A când numărul de procesoare este egal cu unu, nu este necesar a fi identic cu T (n) Viteza este măsurată relativ la cel mai bun algoritm secvențial Este o practică comună aceea de a înlocui T (n) cu timpul celui mai bun algoritm secvențial cunoscut, dacă complexitatea problemei nu este cunoscută Timpul de execuție a unui algoritm secvențial este estimat prin numărul de operații de bază cerute de algoritm ca funcție de dimensiunea datelor de intrare In mod curent se atribuie o unitate de timp pentru operațiile de citire și scriere în memorie și pentru operațiile aritmetice și logice (ca adunarea, scăderea, compararea, multiplicarea, sau logic etc) Costul unei asemenea operații nu depinde de lungimea cuvîntului; se utilizează ceea ce se numește criteriul costului uniform EFICIENȚA O altă măsură a performanței unui algoritm paralel este eficiența, definită prin ад рТДп)’ ЕДп) Această măsură oferă o indicație a utilizării efective a celor p procesoare în implementarea algoritmului dat valoare a lui Ep(rt) aproximativ egală cu , pentru anumit p, indică faptul că algoritmul A rulează aproximativ de p ori mai repede utilizînd p procesoare decât utilizând un procesor Există o limită superioră asupra timpului de rulare, notată cu ^(n), sub care algoritmul nu poate rula mai repede, indiferent de numărul de procesoare, adică Tp(n) A T^nȚ pentru orice valoare a lui p, astfel încât eficiența Ep(n) satisface Ep(n) ж, iar A reprezintă perturbația temporală datorată comunicărilor și sincronizărilor dintre procesoare Pentru un procesarea vectorială, Тр(и) = [n/p\tv + ptv, unde ptv este timpul de start pentru o operație vectorială, iar p este lungimea maximă a unui vector care poate fi procesat Vectorii-date sunt partiționați în subvectori de maxim p componente Performanța calculului paralel este funcție de mărimea problemei Dacă problema nu este aleasă conform configurației de interconectare a sistemului, nu se măsoară performanța reală Performanța unei arhitecturi paralele este măsurată prin indicele de performanță, care este o funcție reală definită pe spațiul parametrilor arhitecturii De obicei, indicele de performață este exprimat prin rata de utilizare a unui procesor în timp, U De exemplu, dacă se consideră cazul evaluării unei funcții iterative prin metoda descompunerii în subprograme de complexitate egală, astfel încât procesoarele individuale execută setul de instrucțiuni asociat în aceeași perioadă de timp, atunci U = unde ti este timpul total necesar unei iterații, iar t este timpul mediu în care un procesor este angajat în executarea setului de instrucțiuni Astfel, U reprezintă fracția de timp în care procesorul este ocupat, iar — U, fracția de timp în care procesorul nu este utilizat Indicele de performanță exprimă efectul arhitecturii calculatorului paralel asupra algoritmului iterativ Problemele cunoscute astăzi ca având soluții paralele eficiente constituie clasa de probleme notată NC (Nick’s class) Clasa NC conține problemele rezolvabile într-un timp polilogaritmic cu un număr polinomial de procesoare Se utilizează în capitolele următoare notația T(n) = (/(n)) pentru cazul în care există constantele pozitive c și n astfel încât T(n) n ORGANIZAREA DATELOR Se consideră cazul unei probleme care necesită un număr de procesoare care nu este disponibil în sistem Există două tehnici de acomodare a unei probleme mari la un număr mic de procesoare: tehnica tăierii ("slicing”), tehnica încrețirii ("crinkling”) ORGANIZAREA DATELOR O altă problemă importantă în cazul unor probleme de dimensiuni mari este alegerea optimă a distribuției datelor pe procesoare cu realocare dinamică Metoda consacrată rezolvării acestei probleme este numită transferul datelor în paralel (PDT) Tehnici de distribuire a datelor Utilizând tehnica tăierii, setul de date este partiționat în unități mai mici, astfel încât fiecare unitate în parte poate fi procesată individual de sistem In tehnica încrețirii, se menține conectarea dintre elementele vecine ale setului de date Exemplu Se caută rezolvarea unei probleme pe o grilă de dimensiune X cu un sistem matricial de procesoare de dimensiune X cu conectare între vecinii direcți Tehnica de tăiere presupune împărțirea problemei în patru unități, care fiecare poate h prelucrată în paralel, ca în figura A a Figura : Tehnica de tăiere aplicată unei matrici In tehnica de încrețire se împarte grila în mulțimi de blocuri de dimensiune x , fiecare fiind asignat la un procesor (vezi figura ) Alegerea unei tehnici sau a alteia se face în funcție de problema care se rezolvă De exemplu, se cere calculul matricii de elemente Calculul este realizabil în patru pași, dacă se utilizează tehnica încrețirii, respectiv pași, dacă se utilizează tehnica de tăiere In anumite probleme pot h utilizate succesiv ambele tehnici CAPITOLUL PROGRAMARE PARALELA A A A A ah A A A A A A Азз A A i A A Au Figura : Tehnica de încrețire aplicată unei matrici Termenul de descompunere a algoritmilor sau de descompunere a problemei este utilizat în relație cu tehnicile mai sus menționate Tehnica de transfer a datelor Metoda de transfer a datelor în paralel, PDT, este o metodă de organizare a datelor, utilă în reconfigurarea logică Se pune problema determinării configurației logice optime pentru o anumită problemă și o rețea fizică dată Exemplul Se consideră un sistem cu n procesoare în conectare liniară, fiecare având o memorie care poate h ocupată de o singură dată In mod curent, se stabilește o funcție între date și procesoare Alocarea a n date se poate face în n! moduri Fie cazul n = Se presupune că, inițial, data de index i este alocată procesorului de index г, unde i = , , O realocare a datelor este exprimabilă printr-o permutare De exemplu, prin amestecarea perfectă a datelor, se obține / \ \ / Prima linie reprezintă procesoarele, a doua indexul datelor Simplificat permutarea se poate scrie [ ] In sistem binar indexul unui procesor sau a unei date se reprezintă pe trei biți: b b b Asociem permutării identice vectorul ( ) corespunzător ordinii normale a biților ce reprezintă indexul Vectorul ( ) este asociat aranjării biților b bob Dacă această schimbare de vector este aplicată ORGANIZAREA DATELOR fiecărui index de procesor corespunzător permutării identice se obține permutarea corespunzătoare amestecării perfecte [ ] De exemplu, data de index , aflată inițial în procesorul - index care se scrie în binar - prin aplicarea vectorului de permutare a biților indexului de procesor, se va afla în memoria procesorului , adică de index Astfel, rearanjarea datelor constă într-o schimbare a unui vector, mai eficientă decât transferul fizic Alte exemple: pentru ( ), se obține [ ], pentru ( ), [ ] Exemplul Metoda PDT se extinde la cazul datelor multiple pe un singur procesor, date multidimensionale și matrice de procesoare conectate prin diferite tipuri de rețele Considerăm cazul a date care sunt accesate de patru procesoare conectate liniar Prin tehnica de tăiere datele sunt împărțite în patru grupuri și sunt accesate ca elemente ale unui vector: Adresa\Procesor Analog exemplului anterior, funcțiile de asociere fizică sunt [ ], [ ], [ ], [ ] Datele de index , , și sunt conținute în memoria procesorului Prin tehnica încrețirii, repartizarea se face astfel: Adresa\Procesor Datele de index , , , sunt memorate la procesorul Poziția unei date poate h caracterizată prin numărul de procesor și adresa în memoria acestuia Se asociază astfel fiecărei date indexul unde • în tehnica de tăiere, b b reprezintă adresa, iar b^bo reprezintă procesorul De exemplu, data ( în binar) este memorată la adresa ( ) a procesorului ( ); • în tehnica încrețirii, b b reprezintă procesorul, iar b^bo adresa De exemplu, este memorat la adresa a procesorului CAPITOLUL PROGRAMARE PARALELA Trecerea de la funcția dată-^ (procesor,adresă relativă) în tehnica de tăiere la funcția corespunzătoare în tehnica încrețirii se realizează prin schimbarea ordinii biților b b cu bob Exemplul Ideea specificării a doi parametrii într-un vector este ușor extinsă la cazul a trei parametrii pentru cazul unui tablou de procesoare bidimensional Prin eticheta de procesor se specifică linia și coloana procesorului în sistem Fie exemplul unei matrici x care trebuie proiectată pe o rețea de X elemente de procesare Prin tehnica de tăiere, fiecare submatrice de dimensiune x este proiectată într-un singur plan Prin tehnica încrețirii, fiecare submatrice x este proiectată în memoria unui procesor și submatrici adiacente se găsesc în elemente de procesare adiacente (vezi ) Coloana procesor Coloana procesor P P P plan /A}/Тз/ de date Plan de date Plan de date Figura : Proiectarea unui tablou X pe o matrice de X procesoare prin tehnica (a) tăierii (b) încrețirii Fiecărui element de tablou i se asociază doi indici din domeniul , respectiv In prima tehnică, primul index indică linia pe care se află procesorul, iar al doilea index, scris în binar bib , furnizează planul (&i) și coloana procesorului ( )- In a doua tehnică, primul index indică planul, iar biții celui de-al doilea index, coloana, respectiv linia procesorului Utilizarea metodei PDT permite o evidență a mișcărilor datelor în situații complexe când proiectarea datelor pe elementele de procesare se schimbă în cadrul unui algoritm In implementările actuale ale metodei, un vector de schimbare este speci CÂND O PROBLEMĂ ESTE PARALELI-ZABILĂ? ficat ca produs de permutări elementare CÂND O PROBLEMĂ ESTE PARALELI-ZABILĂ? Multe probleme par a fi mai puțin adaptabile la procesarea paralelă, în pofida prezenței unui număr mare de procesoare Problemele pot fi clasificate relativ la noțiunea de paralelizibilitate Aceasta tratează problema prin intermediul a doi parametrii: timpul și numărul de procesoare Astfel, • o problemă poate fi definită ca fiind paralelizabilă dacă poate fi rezolvată cu atât mai rapid cu cât numărul de procesoare este crescut; • o problemă este paralelizabilă dacă poate fi rezolvată într-un timp poliloga-ritmic (adică O(logfcn), unde n este dimensiunea problemei, iar к un număr natural) cu un număr polinomial de procesoare (problema aparține clasei NC) Gradul de paralelism al unui algoritm se definește astfel: teoretic este numărul de operații aritmetice ce sunt independente și pot fi executate concurent; în implementarea pe un procesor pipeline pentru care operanzii sunt definiți ca vectori, este lungimea liniei de procesare; în implementarea pe un masiv de procesoare, este egal cu numărul de operanzi prelucrați în paralel GENERAREA ALGORITMILOR PARA- LELI Când se implementează o problemă pe un calculator paralel, prima sarcină este aceea de a descompune procesul, în așa manieră, încât procesoarele să lucreze concurent la o problemă Comunicarea dintre elementele de procesoare poate produce probleme deosebite In principiu, se urmărește sincronizarea proceselor și minimizarea numărului de comunicații al căror timp este limitat fizic In principiu, există trei modalități de generare a algoritmilor paraleli: CAPITOLUL PROGRAMARE PARALELA prin unități independente: fiecare procesor execută același program izolat de celelalte procesoare; prin paralelism geometric: fiecare procesor execută același program asupra unor date corespunzătoare unei subregiuni a sistemului; datele de pe frontiera subregiunii sunt date de comunicare cu procesoarele învecinate care operează asupra subregiunilor limitrofe; prin paralelism în algoritm, în care fiecare procesor este responsabil pentru o parte din algoritm și toate datele trec prin fiecare procesor In problemele de simulare apare adesea necesară execuția unui singur program pentru o mulțime de date Cel mai simplu mod de exploatare a paralelismului este executarea mai multor copii ale unui program serial pe un număr de procesoare independente, fiecare copie operând asupra unui set diferit de date de intrare Dacă natura problemei este de așa manieră încât fiecare simulare presupune aceeași perioadă de timp, atunci implementarea este "balansat încărcată”, iar viteza depinde liniar de numărul de procesoare Eficiența calculului paralel este mică dacă implementarea nu este balansat încărcată problemă este geometric paralelizabilă dacă algoritmul corespunzător implică numai operații asupra unor date care pot fi grupate local Fie exemplul simulării comprimării unui lichid Regiunea din spațiu ocupată de lichid poate fi divizată în subregiuni egale în număr cu numărul procesoarelor disponibile Fiecare procesor este responsabil de evoluția lichidului în subregiunea sa Datele referitoare la frontiera subregiunii trebuie transmise între unitățile de memorie ale elementelor de procesare Comunicațiile într-o mașină bazată pe transputere produc probleme, în cazul unei descompuneri geometrice Procesoarele care comunică trebuie să fie apropiate pentru o balansare cât mai eficientă între timpul de calcul și timpul de comunicare Astfel, rețeaua de interconectare trebuie să fie cât mai apropiată de structura cerută de problemă Dacă se execută o descompunere geometrică în trei dimensiuni, de exemplu, pe cuburi, fiecare procesor trebuie să comunice cu șase alte procesoare transpunere directă a structurii cerute pe sistemele actuale cu transputere cu patru legături, nu este posibilă Se utilizează tehnici speciale de proiecție pe structura reală Un exemplu de problemă geometric paralelizabilă este "jocul vieții” Se caută simularea evoluției unei colonii de celule din spațiul bidimensional Fiecare celulă se află într-unul din stadiile: vie sau moartă La fiecare pas (generație), stadiul unei celule depinde de cei mai apropiați opt vecini celulă vie supraviețuiește în generația următoare, dacă are sau vecini vii, altfel moare de singurătare GENERAREA ALGORITMILOR PARA-LELI sau supra-aglomerare celulă moartă înconjurată de exact trei vecini reânvie în generația următoare, altfel rămâne moartă Modelul trecerii tuturor datelor prin toată rețeaua de procesoare este utilizat pentru probleme care presupun interacțiuni de lungă distanță, cum ar fi problemele electrostatice sau gravitaționale Fie, de exemplu, cazul simulării dinamicii moleculare ale unui sistem de n particule care interacționează pe baza unor forțe electrostatice în cazul general, este necesară calcularea a n(n — l)/ interacțiuni la fiecare pas Se consideră o structură de p procesoare conectate într-o structură circulară Se distribuie aleator n/p particule la fiecare procesor, care are sarcina de a urmări mișcarea particulelor repartizate Primul pas efectuat de fiecare procesor constă în alegerea unei particule din memoria locală și transmiterea masei și coordonatelor acesteia următorului procesor din inel In pasul al doilea, fiecare procesor calculează forța de interacțiune a particulelor sale cu particula "călătoare” și transmite informația (masă și coordonate) despre această particulă următorului procesor din inel Procedura se repetă până când fiecare particulă a vizitat fiecare procesor (un pas al procedurii de simulare a dinamicii moleculare) Forțele care acționează asupra unei particule, datorate celorlalte particule, se acumulează, determinând evoluția particulei CAPITOLUL PROGRAMARE PARALELĂ Capitolul ALGORITMI PARALELI FUNDAMENTALI DIVIDE ET IMPERA Majoritatea algoritmilor paraleli numerici urmează principiul "divide et impera” Acesta presupune împărțirea problemei în subprobleme mici care pot fi tratate independent Gradul de independență este o măsură a efectivității algoritmului pentru a determina cantitatea și frecvența comunicărilor și sincronizării Strategia "divide et impera” consistă în trei pași principali: partiționarea problemei în subprobleme de dimensiuni aproximativ egale; rezolvarea recursivă a subproblemelor și concurentă a întregului set de subprobleme; combinarea soluțiilor subproblemelor într-o soluție pentru problema generală Exemplul Aplicăm conceptul "divide et impera” la calculul sumei аД- Produsul aibi este calculat de procesorul Pi Procesoarele cu număr de identificare i par transmit rezultatul la procesoarele i — Operația de însumare este astfel "divizată” între n/ procesoare: procesorul Pi cu i impar efectuează suma аД + аг+Д+і- Procedeul este repetat de [log n] ori până când suma este obținută în procesorul P Exemplul Se pune problema închiderii convexe a unei mulțimi de puncte din plan, reprezentate în coordonate carteziene, S = {pi,p , ,pn} închiderea convexă a lui S este cel mai mic poligon convex care conține toate cele n puncte ale lui S (figura a) Problema constă de fapt în determinarea unei subliste ordonate CAPITOLUL ALGORITMI PARALELI FUNDAMENTALI de puncte din S care să definească poligonul convex de închidere a lui , notat CH(S) Fie p și q punctele lui S cu cea mai mică, respectiv cea mai mare abscisă In mod natural, p,q E CH(S) Se notează cu UH(S) lista ordonată a punctelor din CH(S) dintre p și q parcurse în sensul acelor de ceasornic, iar LH(S), de la q la p în același sens Evident UH(S) U LH(S) = CH(S), UH(S) П LH(S) = {p, q] (figura b) Se determină separat UH(S) și LH(S) Se sortează punctele рг- după abscise Fie ®(pi) mnp Atunci toate multiplicările se pot efectua printr-o singură operație * De exemplu, fie m = n = p = , «n « «n « « « « « Valorile aikbkj sunt elementele matricii rezultat « « « « « « « « bn ân bl b l b bi b b care poate fi rearanjată astfel « « « « « « « « bn bn b i b i bl b bl b CAPITOLUL ALGORITMI PARALELI FUNDAMENTALI Pentru cazul general se consideră unde EL, este linia i a matricei B Pentru obținerea matricii C se adună câte n numere din matricea de mai sus Cazul Numărul de procesoare satisface mnp > N > max(mn,np,mp) Atunci este posibil a se efectua mp, mn sau np multiplicări simultan (printr-o singură operație de înmulțire, *) în fiecare ciclu care se repetă de n, p sau m ori Apar trei situații (vezi figura ): min(m,n,p) = n Se utilizează algoritmul produsului extern Se observă că C = Ck^ unde (Ck)ij = aikbkj Matricea Ck poate fi obținută printr-o singură operație *: unde matricele au dimensiunea m X p min(m, n, p) = m Se utilizează algoritmul produsului intern pe linii Linia Ci, a lui С (г = , m) poate fi obținută prin însumarea elementelor corespunzătoare de pe fiecare linie a matricii unde matricele au dimensiunea n X p min(m,n,p) = p Se utilizează algoritmul produsului intern pe coloane Coloana CtJ a lui C (j = l,p) poate fi obținută prin însumarea elementelor corespunzătoare ale coloanelor matricii unde matricele au dimensiunea m X n MULTIPLICAREA A DOUĂ MATRICI Cazul Numărul de procesoare satisface N y, altfel este Se contorizează numărul de biți nenuli Dacă numărul de biți nenuli corespunzători lui x este p, atunci poziția lui x în secvența sortată este p + (sortare prin numărare) Exemplu Fie n = și z = ( , , , ) Prima etapă este achiziția contoarelor Se consideră procese care fiecare evaluează rezultatul comparării a câte două valori ale șirului: : : : : : : : : : : : : : : : : o o o SORTARE In etapa a doua se calculează rangul fiecărui element: linia (cheia ): + + + = linia (cheia ) : + l + l + = linia (cheia ) : + + l + = l linia (cheia ) : + + + = In faza a treia se reașează datele conform rangului nou calculat Dacă se dispune doar de de n procesoare, determinarea rangului în șirul ordonat se poate desfășura în modul următor Fie c vectorul ce se construiește pentru rangurile elementelor, iar a un vector intermediar Ideea este de a compara simultan n — perechi succesive din z privit ca un inel de date cu ajutorul lui a Dacă („) = + O (| ) ( ) = С(п) = ’± + С[^) C( ) = l De exemplu, fie к = și z =( , , , , , , , ) Procedeul de sortare bitonică este reprezentat în figura Procedeul poate fi aplicat și secvențelor nebitonice Presupunem că z\, ,zn este o secvență arbitrară și că prin aplicarea unui pas al algoritmului se obțin Г ^ , ^ , • • • Subsecvențele de patru elemente (тгі, z , £ , z±) și (тг , тг , tt ) sunt bitonice Fiecare subsecvență de patru elemente poate fi sortată în doi pași în paralel Pentru secvențele de ordin impar se aplică schema cu săgețile de comparare inversate, astfel încât, în final Г Zq > Z > Z , adică (Ai, : тг , тг , тг , тг , тг ) este о secvență bitonică Astfel, fiecare subsecvență de opt elemente este bitonică și poate fi sortată în trei pași în paralel Se continuă astfel pînă la constituirea unui unic șir bitonic Astfel, întreaga secvență se poate sorta în D(n) = + H к = -k(k + ) = - log n(log n + ) CAPITOLUL ALGORITMI PARALELI FUNDAMENTALI Pas Pas O Pas O O O Figura : Sortarea unui șir bitonic de lungime pași în paralel prin C(n) = ~С( г) = O(nlog|n) comparări Dacă n nu este putere a lui doi, pot fi adăugate în secvență elemente egale cu o anumită valoare până la obținerea unei puteri a lui doi Pas zl - ry-r-i г-, -, , , z ' ' ’ ’ , j : - ■ - : z г - ! ГГ ,, J' " ■ ’ ’ II ' '■ ' ’ j : : L J ! j z ' ’ ' II , J, ' ‘Lt" ‘ ’ - ' L — J z ,; t k ’ ” z ■ ' ” , i: Figura : Sortarea unei secvențe oarecare prin transformarea în prealabil într-o secvență bitonică Pentru exemplificare, se consideră cazul n = și z = ( , , , , , , , ) Rezultatul se obține în șase pași (vezi figura ) Se observă că pentru sortarea în paralel, prin algoritmul de mai sus, a n numere sunt necesare n/ procesoare care au următoarea funcționalitate: • acceptă două date de intrare din secvența de numere; SORTARE • determină minimul și maximul acestor date; • eliberează ca date de ieșire minimul și maximul într-o anumită ordine Figura : Sortarea unei secvențe bitonice cu n = elemente (a) repartizare inițială a datelor pe procesor (b) repartizarea datelor de ieșire pentru pasul al doilea (c) scurgerea datelor printr-o structură tip amestecare-perfectă Se exemplifică cazul n = numere dintr-o secvență bitonică Sunt necesare procesoare Pentru primul pas datele sunt repartizate conform figurii (a) Dacă datele de ieșire din fiecare procesor sunt în ordonate minim-maxim, atunci aceste date reintră în cele patru procesoare-comparatori conform figurii (b) Graful de scurgere a datelor sugerează utilizarea unei conectări de tip amestecare perfectă (vezi figura c) Fie cazul unei secvențe oarecare de numere Primul pas al sortării bitonice presupune compararea elementelor de indici consecutivi Dacă se respectă graful de scurgere a datelor din figura (b), elementele z și Zi nu pot fi comparate direct deoarece sunt repartizate la comparatori diferite Se observă din figura că compararea a două elemente de indici consecutivi este ultima fază a sortării unei secvențe bitonice Astfel, în condițiile date de scurgere a informațiilor z și Zi vor ajunge la același comparator după doi pași de filtrare prin comparatori, dacă acestea nu modifică ordinea în care ies datele față de ordinea în care intră datele Astfel, pentru cazul n = se vor efectua pașii în paralel conform schemei din figura (a) CAPITOLUL ALGORITMI PARALELI FUNDAMENTALI De exemplu, fie n = și secvența ( , , , , , O, , ) Amestecările și comparările care se efectuează sunt prezentate în figura (b) min(x,y) x max(x,y) у max(x,y) min(x,y) (b) Figura : Sortarea unei secvențe oarecare cu elemente (a) schema generală (b) exemplu CĂUTARE Problema Fie X = (жі, ,ж„) elemente distincte dintr-o mulțime ordonată S astfel încât Жі ■■■■> Ь(і+ )п/k) •> Ai ( { , , , к — } cu proprietatea с(г) șă c(J) dacă (z,j) G E Se consideră cazul particular al grafului unui inel Pentru un asemenea graf este posibilă o -colorare CAPITOLUL ALGORITMI PARALELI FUNDAMENTALI Algoritmul secvențial Se traversează inelul pornind de la un vârf oarecare și se asignează culori arbitrare din mulțimea { , } la vârfuri adiacente A treia culoare poate fi necesară pentru terminarea ciclului Acest algoritm secvențial este optimal, dar nu conduce la un algoritm paralel rapid Problema pentru cazul general al unui graf oarecare constă în partiționarea mulțimii vârfurilor în clase astfel încât fiecare clasă să fie asignată unei aceleiași culori Presupunem că arcele lui G sunt specificate printr-o funcție S astfel încât S(i) = j dacă (î,J) G E Presupunem că inițial colorarea lui G este с(г) = г, Ѵг Se poate reduce numărul culorilor prin următoarea procedură simplă care ține seama de reprezentarea binară a numerelor asociate culorilor Dacă (г) = (it-i ■ ■ - ik ■ ■ ■ « ) , atunci al /г-іеа bit cel mai puțin semnificativ al lui i este A- Se asociază fiecărui vârf un proces Procesul asociat vârfului г, determină cel mai puțin semnificativ bit în care с(г) și c(S(z)) diferă și se modifică funcția de culoare с'(г) = /г + с(г)л;, unde c(i)k este al /г-іеа cel mai puțin semnificativ bit al lui с(г) Calculele se efectuează concurent In exemplul din figura , numărul culorilor este redus de la la N: - i c к c ’ Figura : (a) Un graf particular (b) Reducerea numărului de culori Fie t numărul de biți utilizați pentru reprezentarea culorilor prin c Atunci, fiecare culoare utilizată în c' poate fi reprezentată cu [log t] + biți, unde [•] de-semneză cel mai mic întreg mai mare decât valoarea dintre paranteze Procedura de reducere a culorilor poate fi aplicată de mai multe ori, atâta timp cât t > [logx t] + , adică t > Pentru cazul t = , rezultă o colorare cu cel mult culori, Valorile ж , Жі, аг-, bi sunt cunoscute Relația recursivă poate fi reformulată vectorial H = Mpp-i, i > , unde Atunci H = MM \ ■ ■ ■ M yi Produsul matricilor poate fi calculat în paralel prin tehnica dublării recursive descrise la evaluarea expresiilor aritmetice Exemplul Anumite relații de recurență neliniare pot fi reduse la cazul liniar și, deci, rezolvate în paralel cu tehnica menționată De exemplu, zt = аг + se reduce la relația recursivă în ж din exemplul anterior, dacă жг- = гго-^і • • • Zi O asemenea ecuație se obține la descompunerea LU a unei matrici tridiagonale (U și L sunt, în acest caz, matrici bidiagonale) EVALUAREA RELAȚIILOR RECURSIVE Exemplul Intr-o serie de probleme apar recursii de tipul Soluția finală este de tipul Axq T / n Cx -\~ unde (A B\ /an bn\ /a b \ /аг Ьг\ \C D J \cn dn J \ c d J у Ci di J Produsul matricial poate fi calculat, de asemenea, prin tehnica dublării recursive Exemplul în anumite condiții, metoda dublării recursive se poate aplica iterațiilor de forma хг = Л(жг ), г > , ж dat Soluția are forma Xn = • -fl(xo) ■ ■ Dacă compunerea este asociativă în clasa funcțiilor i > , atunci se poate aplica tehnica dublării recursive: Xn = (• • • ((X O fn Ț o (X o fn )) ■■■(J O / ) ■ ■ •) (ж ) Exemplul Spre exemplificarea aplicării tehnicii reducerii ciclice se consideră relația recursivă жг = аг + Ьгжг і, unde a = x , ai, bj sunt cunoscuți Termenul жг- poate h exprimat succesiv în funcție de жг і, жг , жг , жг , astfel жг = аг + Ьг(аг-і + Ьг-іЖг- ) =: + Ь^хг = = «га) + ^к- + С- ^- ) =: аг' ) + ЬрЧ- = • • • Relațiile recursive pentru coeficienții noi sunt = ah-i) + = b^b^h, ajo) = аг, ăjo) = bt Atunci xn = a^ Ab^xn k, unde к = [log n] Valorile a^, b^ se calculează printr-un algoritm paralel care exploatează graful de scurgere a informațiilor (tip arbore -vezi rezolvarea sistemelor liniare tridiagonale) CAPITOLUL ALGORITMI NUMERICI PARALELI POLINOAME Fie polinomul Р(ж) = аг-жг î'= Algoritmul secvențial pentru evaluarea valorii polinomului în ж , construit pe baza regulii Horner, presupune procesul iterativ b = aj + xobj+ , j = n - , , , bn = an Valoarea cerută este Р(ж ) = b Algoritmul Dorn pentru calculul paralel cu r procesoare presupune aplicarea simultană a regulii Horner la r subpolinoame, obținute prin partiționarea polinomului inițial Fie, de exemplu, r = Procesul iterativ corespunzător este următorul: bn bn—± an—i? bj cij -|- Жд ^ | ? J , , Atunci F(z ) = &o + &l® - Polinomul este partiționat astfel: P(®o) = [« + ®o(° + xo(' • • + xo(a [n/ l) • • •] + + [ж (пі + ж§(а + ж§(а + • • • + ж§(а [(п-і)/ ]+і) • • •)]• О altă variantă de paralelizare este aplicarea tehnicii dublării recursive pentru procesul iterativ corespunzător regulii Horner SISTEME LINIARE TRIDIAGONALE - METODE DIRECTE Se consideră sistemul SISTEME LINIARE TRIDIAGONALE - METODE DIRECTE Reducerea ciclică Tehnica reducerii ciclice poate fi aplicată cu succes la rezolvarea sistemelor liniare cu matrice tridiagonală Sistemul în necunoscutele жх, , xn poate fi descris astfel: агжг і + ЬіХі + сгжг+і = г, г = ,и, unde «i = cn = ж = жп | і = Termenul жг- apare în ecuațiile (ti — Ж?' + bi— |/; i T Сг' Жг' (li — ^i (ЪіХі—\ T Rxi T с?'Ж?' | х dp «г'+ Жг' + І>і+ хі+ + n + Atunci soluția finală poate fi exprimată prin жг- = log (n + ) G N Există două posibilități de determinare a soluțiilor pe baza coeficienților ma- tricelor transformate: se determină xn și apoi prin substituții regresive celelalte componente ale vectorului soluție (vezi figura ): (a) pentru fiecare к = , , К calculează p^ = (a^k\ b^k\ c^k\ > P Pi P ? N' : ( ) ( ) ( ) ( ) ( ) ( ) ( ) Pi p p P P P p Figura : Determinarea soluțiilor unui sistem tridiagonal de dimensiune pe baza reducției ciclice în număr minim de pași paraleli la altele trei pentru eliminarea elementelor de pe diagonalele secundare) se succed astfel: / bi ci « & C a b c C « C CLq Cq (I b'Ț a c I b'Ț a a C (ЪС b' Cf b ” a ” b ” c ” a Ь C a ” b&” aA bA a SISTEME LINIARE TRIUNGHIULARE - METODE DIRECTE Aceste transformări se aplică și asupra vectorului termenilor liberi (di, d ■ ■ ■ , dy)T —> (jR, d' , , d' )T —> (di”, d , , d ”) Se extrage sistemul în variabilele (ж , ж , ж ): Transformările matricei presupun de asemenea trei procese distincte asociat fiecare cu o linie utilizată pentru eliminarea elementelor de pe subdiagonale SISTEME LINIARE TRIUNGHIULARE -METODE DIRECTE Sistemele triunghiulare apar adesea în faza finală a rezolvării unor sisteme dense (de exemplu în cazul factorizărilor) Există două tehnici des utilizate: • metoda de schimbare a coloanei; • metoda produsului recurent Un sistem recurent liniar R(n, m) de ordin m cu n ecuații are forma fc-i xk = bk + ■,, — b^ Рг ~ °i Рп-г + — Ѵп-і+п unde (г + ) l(î) ' ' I ' ? ( ) Л bj = by - Wppi - wjn l+ pn l+ , j = г + , ,n - г, by = bj Relațiile recursive pot fi evaluate în paralel Factorizarea QR Metoda factorizării QR a fost de asemenea extinsă pentru cazul unui sistem paralel Metoda Givens secvențială presupune ca matricea A să fie factorizată sub forma A = QR, unde Q este o matrice ortogonală n xn, iar R este o matrice triunghiular superioară n X n Matricea R este determinată calculând QTA,unde Q este produsul unui număr de rotații de plan, care fiecare anihilează un element din A de sub diagonala principală, fără a distruge zerourile produse anterior Astfel, pentru anihilarea elementului se multiplică liniile i și i — ale lui A cu unde unghiul de rotație Ѳ este determinat din Sistemul inițial se rescrie Rx = QTb Componentele lui x sunt obținute prin rezolvarea sistemului triunghiular In metoda paralelă, se pot aplica simultan mai multe rotații SISTEME LINIARE - METODE ITERATIVE SISTEME LINIARE - METODE ITERATIVE d{j — Se consideră sistemul liniar Ax = b Algoritmii secvențiali Un procedeu clasic de construire a metodelor iterative este următorul Se descompune A = D — L — U este D este o matrice diagonală, L este o matrice strict inferior triunghiulară și U este o matrice strict superior triunghiulară: aijl г J J f аір J , altfel ’ ij [ , altfel ’ ij [ , altfel ’ Atunci sistemul de ecuații liniare se poate rescrie: Dx = (£ + W)x + b sau (D — L)x = Ux + b Astfel procesul recursiv Jacobi este descris prin Dxjk+ ^ = (L + U)x^ + b, unde x^ sunt iterații succesive Iterațiile se pot rescrie ж^+ ) = D~xțD — А)ж^ + D~rb = — D~ țAx^ — b) Condiția de convergență a proce- sului iterativ este ca raza spectrală (valoarea proprie maximă în modul) a matricei ? (£ + U) să he subunitară In mod analog se poate construi procesul iterativ Gauss-Seidel x^ț ^ = (D — L)~ UxQg + (D — L')~ b = x^g — (D — £) (Аж^| — b) Condițiile de convergență pot h îmbunătățite dacă se acordă încredere într-o anumită măsură iterației Gauss-Seidel Astfel metoda suprarelaxării succesive consideră iterația = ( — )&іж^ — шсіх^ + — шсгх^ + udt, i = , , n — [ Ьпх^+Г} = ( - ш)ЬпХп ^ -шапх^ + udn, Procesul are un puternic caracter secvențial (repartizarea pe componente a proceselor nu conduce la concurența acestora) Pentru depășirea acestui inconvenient, se utilizează o permutare care transformă matricea A în A și sistemul în Ay = d, CAPITOLUL ALGORITMI NUMERICI PARALELI unde У (^ , ^ ? • • • ч ^ k — ? ^ ? • • • ч ^ k) ч d — (б? , ? , , d fc l, ? , , d k)T ч I Ci (ІЗ c C fc- I U k I Metoda suprarelaxării succesive aplicată la acest nou sistem conduce la &iy!fc+ ) = ( - - u’Cij/J^+i + (fc+l) \ (fc) (fc) (fc) “ О г- У- - ( - ^)о г іу> - ^а г іу;/ +г - + udt, i = , n/ și ° гУп/ +г — ( — ^У^лУ^^ — ^О, гУ ~ ^С гУг + + ^«n/ +n І = , n/ — , ЬпУп+ ) = ( - ^ЬпУ^ - шапу^Ѵ> + wdn Dacă у[к\ , у^ sunt cunoscute, atunci у[к+ \ , У^^ se calculează în paralel cu primele formule, apoi , se determină utilizând al doilea set de formule Metodele iterative propuse pentru cazul paralel utilizează descompuneri de tipul dublu-diagonal (conform figurii ) în locul descompunerii triunghiulare, ca în cazul procesării seriale Metodele paralele Jacobi și a suprarelaxării succesive se bazează pe o partiționare de tipul A = X — W — Z, unde X are elemente nenule numai pe cele două diagonale, iar W și Z au elemente nenule Pentru metoda Jacobi paralelă, -I o o, г/t, I + n - J + , агу, altfel, REZOLVAREA ECUAȚIILOR NELI-NIARE Figura : Descompunerea de tip dublu diagonal , i A j A n — г + sau n — г + )^k(p) + unde ш este factorul de relaxare Iterația paralelă Jacobi de mai sus converge dacă A este pozitiv definită, iar metoda paralelă a relaxării succesive converge dacă ш G ( , ) REZOLVAREA ECUAȚIILOR NELINIARE Au fost experimentate anumite versiuni paralele ale metodelor clasice iterative de determinare a soluțiilor unei ecuații Metodele testate sunt: metoda Newton, metoda secantei, extrapolarea parabolică De exemplu, în metoda secantei multiplexată la utilizarea а к procesoare, se efectuează к evaluări de funcție în puncte egal depărtate dintr-un interval dat CAPITOLUL ALGORITMI NUMERICI PARALELI Creșterea numărului de evaluări de funcție Un algoritm sincron de acest tip presupune mai multe faze Pasul i constă în: alegerea а к puncte distincte ж^г, \ ж^г, \ , x^t,k^ în intervalul (ж^^ж^); evaluarea în paralel a valorilor funcției în punctele ж (гЧ = , -Л; determinarea unui nou interval de aproximare (Ж|’+ \ ж^+ ^) (de exemplu, valorile între care semnul funcției se schimbă) dacă lungimea noului interval este mai mare decât nivelul de eroare admis, se reiau pașii (l)-( ) cu i ,, J, , , / unde AU AU Akh J U ? • • • ? ^î- ? ^г’+l ? • • • ? / дхг x=x^ Fiecare componentă a vectorului iterativ poate fi calculată independent cunoscând valorile anterioare Metode de interpolare inversă Fie ecuația neliniară /(ж) = Una din metodele de rezolvare a acestei ecuații, metodă care este paralelizabilă, este cea care produce o secvență iterativă de vectori r dimensionali simultan (presupune r procese concurente), fiecare componentă reprezintând o valoare aproximativă a soluției Procesul j evaluează funcția în componenta j a celei de a n + iterații, aproximativ, pe baza valorilor funcției obținute de celelalte procesoare Primul proces utilizează ultimele m aproximații și calculează noua aproximație prin determinarea lui £m i, polinomul de interpolare Lagrange, și extrapolarea la zero (determinarea unei rădăcini a polinomului de interpolare) Simultan, procesul al doilea utilizează ultimele m + aproximații și calculează o nouă aproximație utilizând Lm ș a m d Fie xn = (ж*, ,ж()) vectorul de aproximații ale soluției la un moment dat Atunci жп | і se determină astfel: se alege un întreg m > ; REZOLVAREA ECUAȚIILOR NELI-NIARE se determină polinoamele de interpolare Lagrange de grad m + j — , pentru j = , , r, adică polinoamele care satisfac Lm+j (yi) = « = l,m + j-l, unde у = (x'Ț xrn~Ț , xȚ xrn T, x^, ); se determină câte o rădăcină ж^+ a polinoamelor £m+j , pentru j = , , r De exemplu, pentru r = m = , жп+і = (ж^+ ,ж^+ ) cu f fl ^nJn Піп xn+l ~ f fl ’ J n J n f £ £ £ £ £ JrJn'-t'n- | Jn-l)n'ln | Jn-l)n'ln xn+l — fl \( f f \ ( fl f? fl — f \ ( f f f fl \J n— Jn'\Jn-l Jn) [Jn J n — )\J n Jn) [Jn J n — )\J n Jn și /• = /(ж)), ж) fiind coloana i a matricii Xj, care reprezintă o aproximare a soluției la iterația j Se observă că ж^+ este punctul de intersecția cu axa Ох a dreptei ce trece prin (xȚ /*) și (xȚfȚ), iar (metoda coardei), iar ж^+ este punctul de intersecție cu axa Ох a parabolei care trece prin punctele (ж^ ,/ ), (x^, fȚ) și (xȚ / ) (metoda parabolei) Viteza de calcul paralel (rapiditatea cu care se deremină aproximația soluției) crește logaritmic cu numărul de procesoare Polinomul de interpolare Hermite H al unei funcții f este caracterizat prin perechile (жг-, А), г = , , m, pentru care Н^\хг) = f^Xi), j = , , A — , I = , ,m Gradul polinomului Hermite este N = — + R Un algoritm paralel pentru determinarea rădăcinilor lui f a fost propus de Feld-stein și Firestone pentru cazul bj = jb Se utilizează m procesoare Procesorul к execută b evaluări: (жп г-+ ), i = ,b, unde xn este aproximația curentă Aproximația următoare, жп+і este calculată prin extrapolarea la zero a polinomului de interpolare Hermite asociat Exemple Dacă b = , m = , atunci primul procesor evaluează f(xn), în timp ce la doilea, /'(жп і); se construiește polinomul Hermite corespunzător perechilor (ж„, ), (жп і, ), iar жп | і este determinat prin extrapolare Dacă = , m = , primul procesor evaluează f(xn) și fȚxnȚ în timp ce al doilea evaluează /”(жп і) și /"'(ж„ і) CAPITOLUL ALGORITMI NUMERICI PARALELI REZOLVAREA ECUAȚIILOR DIFERENȚIALE Se consideră problema Cauchy cu valori inițiale y'(t) = f(t, У), a REZOLVAREA ECUAȚIILOR DIFEREN-ȚIALE unde fj sa f(tj,yj), j = M + E Dacă f este o funcție neliniară în variabila y, atunci la fiecare pas este necesară rezolvarea unei (unor) ecuații neliniare (ecuație sau sistem în funcție de dimensiunea sistemului inițial) Rezolvarea ecuației implicite se poate efectua aplicând, de exemplu, metoda iterațiilor succesive: Уг+I = У + ^(/^ + Л), к > , unde к reprezintă nivelul de iterare valoare de start pentru acest proces iterativ se consideră aproximația furnizată de metoda Euler explicită: yJ+ = у г + hȚ Aproximația уг-°^ este îmbunătățită (corectată) prin aplicarea procesului iterativ asociat cu metoda trapezului Determinarea valorilor aproximative are un puternic caracter serial Simbolic, Fluxul informațional al procesului poate fi reprezentat astfel în timp: Уо —> У —> У —>•••—> У — У —> У “> • • • —> У'п — Уп- Algoritmul paralel Nivergelt corespunzător algoritmului serial Pentru fiecare Prin convenție Mo = Se presupun disponibile + JO’Lq Mi procesoare numerotate după cum urmează: Poi, (Ai, • • •, Avii), • • •, (A-i i, • • •, Аімп і)- Procesorul Pij are sarcina de a calcula o aproximație pentru y(p+i) pornind de la o valoare aproximativă pentru y(tȚ Etapa Se determină pentru fiecare i o valoare aproximativă sa y(tȚ printr-o metodă ce nu necesită prea multe calcule De exemplu, dacă se consideră metoda liniilor (metoda Euler explicită), sarcinile pe procesoare vor fi următoarele: Poj : y! ) = Уо + hf , J = , A, : У = Уо + /г/о, j = ,> , p • V n- j • УІ ) = Уо + nhf , j = , K-i Etapa Se calculează un număr de Mi valori apropiate de уг-°\ diferite pentru fiecare procesor Ргу De exemplu, se consideră un e real foarte mic relativ la y^ și Pp își calculează valoarea locală УгР = Уг ) + ( —!)J [j/ ]e, CAPITOLUL ALGORITMI NUMERICI PARALELI adică ytl = y} ), yi = y- ) - £, yi = y- ) + e, Ун = У;"’ + e, astfel încât y^ ) sunt într-o vecinătate a lui уг-°\ Etapa Se rezolvă problemele / y'(t) = t £ [b',b+i], I у ( G) = y-°\ cu o metodă numerică (fie M această metodă), astfel încât să ofere o soluție în ti+i mai bună din punctul de vedere al erorii decât î/-°p Metoda M poate să ofere soluția într-un singur pas h sau într-un anumit număr de pași de lungimi egale cu o fracțiune din h Un exemplu este aplicarea metodei trapezului Dacă se aplică procesul iterativ cu un pas /г, atunci yJ+u = ) + + f(L,y-p))- Dacă se aplică procesul recursiv pentru un pas h/ , atunci ( Уг + /Зд = Уг^ + (f(tt + h/ ,yt + / j) + f(tt,y^)) \ Уі+ / д = Уі+ / + ^(f(ti + Ь / ,Уі+ / д) + f(ti + h/ ,yi+ / j)) [ Уг + J = Уі + /N + б№ + tp Уг + j) + f(t* + A/ , yî + / j)) Valorile obținute împreună cu valoarea inițială yff sunt interpolate pe intervalul [U,U+i] cu ajutorul unui polinom Se notează Xj(^) polinomul de interpolare determinat de procesorul Pij Pentru integrarea cu pas /г, Ху este o funcție liniară, iar pentru integrarea cu pas h/ , Xy este polinomul de grad trei care satisface Ky(C) = ), Xy(C + h/з) = уг+і/з , Ky(C + /г/З) = yî+ / j, Xy(C+i) = yJ+ir Etapa - (include comunicare) Soluția finală se exprimă printr-o combinație a soluțiilor calculate de fiecare procesor Se notează y^ valorile aproximative finale Deoarece Mi = , există o unică valoare aproximativă y^ care este considerată soluția finală în X: yi = y^ Această valoare este mai apropiată de soluția exactă y(U) decât y^ dacă metoda M produce o eroare de aproximare mai mică decât metoda care produce valoarea y^ (este cazul metodei trapezului față de metoda Euler explicită) Din vecinătatea lui y pornesc Mi curbe ce aproximează soluția pe intervalul [X, t ], (t,Xj(f)), j = XMi- Cunoscând aceste curbe se pune problema determinării unei curbe aproximative care trece prin yx Mai exact, cunoscând perechile valoare de start-valoare finală, (Уі°\у ^), se cere determinarea perechii y a valorii de start yx Aceasta este o problemă de interpolare Fie Z (y) polinomul de grad Mi care satisface relațiile Z (y^) = y^, , Z (y^i) = y ^ Se definește REZOLVAREA ECUAȚIILOR DIFEREN-ȚIALE soluția finală y^ = Z (yp\ Pornind de la această valoare se determină în mod analog уз,, yn Procesul de integrare a soluției sistemului diferențial are un caracter secvențial doar în această ultimă etapă Observație Reducerea timpului de calcul prin aplicarea algoritmului paralel față de algoritmul serial este obținută datorită faptului că interpolarea valorilor aproximative furnizate de Ргу, j = ,Мг- presupune un timp mult mai mic decât aplicarea metodei M pe intervalul [p i, ti\ Viteza de calcul paralel a acestui algoritm este liniar dependentă de N Numărul de procesoare necesar este mare: + Mi Metode predictor-corector Intr-o schemă predictor-corector se efectuează mai multe evaluări ale aproximației la fiecare punct al diviziunii Formula predictor furnizează o valoare aproximativă pornind de la valorile aproximative calculate în punctele anterioare De obicei această formulă este de forma y„+ = p(yn, Уп-і, • • •, Уп-k+i) (formulă cu к pași), unde p se exprimă funcție de f și pasul de integrare /г, y„ ; sa у(/„ г), iar y„+ ~ y(t„+i) ca o primă aproximare la tn+i Această aproximație este îmbunătățită de o formulă corector, de obicei de tipul c(y(ț+ , yn, , yn g+i) = (formulă cu q pași) Aproximația y(ț+ este soluția, în general, a unei ecuații neliniare Pentru rezolvarea unei asemenea ecuații neliniare se utilizează un proces iterativ a cărui valoare de start este y„+ Valoarea finală a aproximației în punctul tn+i este y„+i = y„+ , cu care se continuă evaluările în următoarele puncte ale diviziunii Ideea de bază în alegerea formulelor predictor și corector dintr-o schemă de integrare este îmbunătățirea aproximației prin aplicarea formulei corector față de aproximația furnizată de formula predictor Exemplul Pentru prelucrarea secvențială un exemplu clasic este următoarea schemă compusă din metode unipas (de tip Adams) h Predictor: yn+ = yn + ~ fn-i), Corector: yn+ = yn + -(/„+i + /„), unde Ț = f(tp yiȚ i = n — , n, n Se observă că formula predictor este explicită (Уп+i se Poate calcula direct), iar formula corector este implicită (y„+i apare atât în membrul stâng cât și în membrul drept ca argument al lui fn+i = f(tn+i, Уп+і))-Pentru rezolvarea ecuației corector implicite se poate aplica metoda iterațiilor succesive: pentru o ecuație de tipul x = у(ж), procesul iterativ al metodei iterațiilor succesive este descris prin = y(®fc), к > , ж dat Dacă se aplică o singură CAPITOLUL ALGORITMI NUMERICI PARALELI iterație, pornind de la valoarea aproximativă y?, se obține h Уп+ ■— Уп+ — Уп + fn)- Calculul se execută în secvența P pP C £ ~Уп+ —/n+ —Уп+ := Уп+ —jn+l —> • • • reprezentarea schematizată a metodei este realizată în figura Figura : Deplasarea frontului de lucru în schema predictor-corector din primul exemplu Linia superioară reprezintă modul în care progresează calculul în formula pre-dictor; analog, linia inferioară pentru formula corector Frontul de calcul este linia imaginară care separă valorile ce urmează a h calculate, printr-un algoritm numeric, de valorile anterior calculate Săgețile indică scurgerea informației la pasul n + Dacă se asociază câte un proces fiecărei formule, nu se așteaptă îmbunătățirea timpului de execuție pe un sistem paralel față de un sistem secvențial, deoarece calculele nu se pot efectua simultan, ci numai alternativ: când un proces lucrează, celălalt este blocat Exemplul Frontul de calcul poate fi devansat dacă celor două linii li se asociază câte un proces și schema predictor-corector următoare: Predictor : yf+ = yn i + hf„, Corector : h Уп '■ = Уп = Уп- + -^Pn + /п- )- Frontul de calcul este reprezentat în figura Când primul proces evalează y/+ , al doilea proces evaluează y^ Valorile inițiale necesare calculului sunt comune ambelor procesoare După efectuarea calculelor valorile iterative sunt scrise în memoria comună (sistem paralel cu memorie comună) sau comunicate pe baza rețelei de interconectare (sistem paralel cu transmitere REZOLVAREA ECUAȚIILOR DIFEREN-ȚIALE Figura : Deplasarea frontului de lucru în schema predictor-corector din al doilea exemplu de mesaje) Deoarece complexitatea calculelor este similară se recomandă implementarea algoritmului într-un program sincron Exemplul Dacă la un pas se fac mai multe corecții cu formula corector este indicată distribuirea acestora între mai multe procesoare Dacă se notează cu iterația i la pasul n, repartizarea se poate face astfel: Procesor predictor: calcul y^+r, evaluare f^r, comunicare valori în rețea sau scriere în memoria comună; Procesor corecția : calcul y^r , evaluare f^r r, comunicare valori în rețea sau scriere în memoria comună; Procesor r corecția r: calcul yn \ evaluare fn \ comunicare valori în rețea sau scriere în memoria comună; în implementare pot fi utilizate r + procesoare Metode Runge-Kutta Formulele Runge-Kutta cu ș-etape au forma Г Уп+і — Уп “ h X* ;— i bif (tn -p Cih^YiȚ î Yi — yn -|- h X* ;— i cpj f (Țn “ Cjlp Yj), unde Ci = Xj=i i combinație de partiționare pe procesoare și pe niveluri ale unei metode ст-implicite se numește (z/, p,, a)-implementare Figura prezintă o ( , , )-implementare a primei metode din figura A doua metodă din figura permite o ( , , l)-implementare Figura : ( , , )-implementare a primei metode din figura anterioară О (г/,/r, Se consideră în cele ce urmează cazul unei ecuații eliptice REZOLVAREA ECUAȚIILOR CU DERI-VATE PARȚIALE Soluții numerice cu diferențe Regiunea de integrare a ecuației eliptice, Q, este mărginită de o curbă C, de-a lungul căreia sunt definite anumite condiții de "mărginire” ale funcției necunoscute ф(х, y) sau ale derivatei acesteia Pentru aplicarea metodelor cu diferențe finite, regiunea este partiționată în regiuni mici dreptunghiulare care formează o mulțime de linii paralele cu axele x și y, egal depărtate Soluția aproximativă este furnizată în intersecțiile acestor linii, în punctele grilei Se obține prin aproximarea derivatelor spațiale ale lui ф în fiecare punct al grilei (г, J), cu funcții liniare pe baza valorilor lui ф în punctul (г,у) și în anumite puncte vecine acestuia din grilă (vezi figura ) Prin anumite tehnici de interpolare a valorilor în punctele grilei se obține o soluție numerică ce acoperă întreg domeniul Q Figura : Descompunerea domeniului de integrare Derivatele sunt înlocuite cu raporturi ale unor diferențe ce depind de dimensiunile elementului dreptunghiular primar al grilei Astfel, дф/dx este înlocuit în ecuație cu ф/ х, unde x este pasul pe axa x a grilei, astfel încât la o grilă cât mai fină să fie atinsă anumită acuratețe a soluției numerice Dacă grila conține p puncte, atunci rezultă un sistem liniar de p ecuații cu p necunoscute Fie, de exemplu, ecuația Poisson, d u d u dx + dy CAPITOLUL ALGORITMI NUMERICI PARALELI unde q este o funcție de ж și у și condiția de mărginire гх(ж,у) = и (ж,у) pe C Utilizând dezvoltarea Taylor în două dimensiuni, se obține u c)^u u(x + h,y) = и(ж, у) + —h + -—h -, du ld u u(x - h,y) = u(x,y) - —h + -■—-h - dx x Prin adunarea celor două relații și neglijarea termenilor de ordin (h ), se obține d u u(x h,y) — u(x, y) + u(x — h, y) dx h Dacă regiunea de integrare este divizată în dreptunghiuri de dimensiune Sx = h și y = к și reprezentăm coordonatele grilei prin x = ih și у = jk, atunci se poate aproxima d u dx h unde иі = u{ih,jk\ iar d u dy k Ecuația aproximației cu diferențe finite pentru ecuația Poisson se scrie astfel sub forma Metode paralele iterative punctuale Se consideră disponibil un sistem paralel de tip SIMD, cu procesoare interconectate sub formă de latice (fiecare procesor este conectat la patru vecini adiacenți) Metoda Jacobi punctuală pentru rezolvarea sistemului liniar mai sus menționat are un caracter de paralelism puternic Schema este definită prin procesul iterativ La fiecare pas, Uij este înlocuit cu media valorilor celor patru vecini adiacenți mai puțin cantitatea / (vezi figura ) Fiecărui punct al grilei i se asociază un procesor Astfel, toate punctele pot fi actualizate simultan Este necesară memorarea unei copii a situației anterioare a grilei Dacă numărul de procesoare este suficient pentru a acoperi grila, actualizarea se face prin numai patru operații de adunare și scădere Calculul, în paralel, poate fi reorganizat (vezi figura ) în doi pași: REZOLVAREA ECUAȚIILOR CU DERI-VATE PARȚIALE j- i- г+ valori ale iterației anterioare П valori ale iterației curente Figura : Actualizarea aproximărilor în metoda punctuală Jacobi în pasul se adună valorile vecinilor din nord și vest; în pasul se adună la matricea rezultat de la pasul , valorile vecinilor din sud și est și se scade qir Original Pas Pas Figura : Organizarea calculului în metoda punctuală Jacobi Prin procesul iterativ se actualizează numai punctele interioare grilei Condițiile la frontieră sunt, în principiu, de două tipuri: • se specifică valorile funcției и(ж, у) pe frontiera domeniului de integrare (problema Dirichlet); • se specifică valorile derivatelor funcției и pe frontiera domeniului (problema Neumann) Ambele probleme pot fi tratate prin alegerea unor coeficienți specifici pentru exprimarea lui u^ Ecuația cu diferente are forma „ + ) „ „/О I — p ■ ■ pi ■ ■ CAPITOLUL ALGORITMI NUMERICI PARALELI unde coeficienții qj, d^, depind de apropierea punctului (î,J) de fron- tiera regiunii extensie naturală a metodei Jacobi este algoritmul Gauss-Seidel, care utilizează cele mai recente valori calculate pentru u, din partea dreaptă a punctului curent al grilei Avantajul față de metoda anterioară este necesitatea de a stoca numai ultima valoare a lui Uij Iterația Gauss-Seidel este definită prin u^+ ) % -Kj- ? + G-lp + Gp+ + G'+ij - TjY Schematizat, procesul este reprezentat în figura valori ale iterației anterioare valori ale iterației curente, deja calculate valori ale iterației curente Figura : Actualizarea aproximațiilor în metoda Gauss-Seidel punctuală Metoda presupune anumită ordine și un front diagonal de lucru, precum în figura (a) La primul pas, punctul este actualizat pe baza condițiilor de mărginire și estimărilor inițiale pentru punctele La pasul doi, punctele sunt actualizate simultan utilizând estimările pentru punctele și valoarea calculată pentru punctul La al treilea pas, punctele sunt actualizate și simultan se poate actualiza punctul a doua oară, deoarece informația despre această aproximare nu mai este necesară Prima iterație evoluează ca un val în grilă, iar următoarele valuri sunt iterațiile ce o succed Se preferă ca, în loc să existe mai multe niveluri în curs de calculare, să se opereze numai cu două niveluri (metoda alb-negru sau roșu-negru) Punctele negre sunt primele actualizate, utilizând valorile albe anterioare, iar punctele albe sunt actualizate folosind ultimele valori negre (vezi figura b) Punctele negre sunt actualizate la un nivel de iterare, iar punctele albe sunt actualizate la următorul nivel de iterare După o iterație, punctele negre sunt la nivelul ca și în metoda Jacobi, iar punctele albe au fost deja actualizate și sunt la nivelul La o iterație, metoda Jacobi actualizează toate punctele, iar metoda Gauss-Seidel numai jumătate Astfel, REZOLVAREA ECUAȚIILOR CU DERI-VATE PARȚIALE (a) (b) Figura : Metoda Gauss-Seidel punctuală (a) Avansarea frontului de aproximări (b) Avans pe două nivele pentru o matrice de procesoare n X n, o problemă de dimensiune n X n poate fi rezolvată utilizând metoda Gauss-Seidel în același timp în care o problemă n X n este rezolvată cu metoda Jacobi, prin asignarea а n X n matrici pentru punctele negre și albe separat și prin actualizarea lor simultană Metoda de suprarelaxare succesivă este o generalizare a metodei Gauss-Seidel care îmbunătățește rata de convergență a iterațiilor către funcția и(ж,у) Se utilizează în acest scop un factor numit factor de accelerare sau factor de relaxare Astfel, la pasul p + , u(p+i) = + u = - u(p\ unde -gs indică o iterație Gauss-Seidel Schema de iterare este La primul pas, este actualizat pentru toate punctele negre, adică pentru i + j par, iar la al doilea pas, pentru toate punctele albe, adică pentru i-\~ j impar Fiecare pas constă în calcule independente care sunt executate simultan Procesul se repetă până când este satisfăcută anumită acuratețe, fapt exprimat printr-o inegalitate de tipul h'J+ ) - hi > • • • > hi > • • • > hm, hi = î , i = ,m, unde i este numit indice de nivel Grila de nivel i este definită prin punctele egal distanțate cu hi ale intervalului ( , ) Gt = {khi : к = , , , г+ - } Pentru determinarea soluției aproximative pe grila Gm se înlocuiește derivata secundă cu diferențe finite: „/ , \ îx((A: -|- l)/zm) u(khm) -|- îx((ă: l)/zm) Se notează cu um vectorul ce aproximează (u(/zm), u( /zm), ,u(( m+ — l)/zm))T Fie fm = (f(hm'p f( hm), , /(( m+ — l)/zm))T Cu aceste notații ecuația inițială devine / - \ - - - - \ — / REZOLVAREA ECUAȚIILOR CU DERI-VATE PARȚIALE Se notează matricea sistemului multiplicată cu scalarul /zm cu £m, astfel încât sistemul se rescrie astfel: LmUm fm- Pentru rezolvarea acestui sistem se propune utilizarea metodei Jacobi, cu un factor de relaxare ш: - fmȚ unde Dm = LȚ Astfel corecția Um^ — u'm este obținută din restul Lmu^m — fm-Fie Um o aproximare a soluției exacte um = LȚ fm După un număr de iterații Jacobi se obține o aproximare mai bună um Dacă se notează vm = um — um (eroarea), ecuația sa este Lm dm, unde dm = Lmum — fm Se propune îmbunătățirea soluției furnizate de metoda Jacobi prin rezolvarea acestui nou sistem liniar Rezolvarea directă a noului sistemului este dificilă Problema se proiectează pe grila mai rară Gm i, unde se determină soluția sistemului Lm — l^m — l dm i Există mai multe posibilități de determinare a matricilor "restricționate” și dm i Cea mai simplă restricționare este realizată de funcția de mediere rm a valorilor unui vector care reduce numărul componentelor la jumătate (rm(vf)i = ^(и г- + Ѵ І + U î'+ ), І = , , ™ — Vectorii dm i și um i se obțin prin ”restricționarea” lui dm, respectiv vm: d’m — l — TmfdmȚ Vm i — proprietate importantă a funcției de mediere este faptul că noul sistem liniar corespunzător grilei Gm i are matricea de formă asemănătoare cu cea a sistemului corespunzător grilei Gm Astfel, matricea hȚ Lm este tridiagonală, cu elemente egale cu doi pe diagonala principală și - pe subdiagonale Se rezolvă exact sau aproximativ sistemul liniar pe această grilă Presupunem că sistemul este rezolvat exact Soluția um i (discretă pe Gm i) este proiectată pe grila mai deasă Gm printr-o "prelungire” De exemplu, se aplică o interpolare liniară Funcția de interpolare liniară definită discret este иг, i este par + (иг і + иг+і)/ , i este par ’ ’ CAPITOLUL ALGORITMI NUMERICI PARALELI Matricile transformărilor utilizate sunt: °\ / unde Rm are m+ — linii și m — coloane, iar Pm are m — linii și m+ — coloane Prin interpolare se obține soluția vm = pm(um i) In final, soluția îmbunătățită pe grila Gm este — ^"rn l'a* — Pm(Lm ^rm(LmUm fm^)- Se conturează astfel etapele unui pas al metodei cu două grile: există o aproximație inițială u'm, se aplică de un număr de ori o metodă de relaxare precum iterația Jacobi cu factor de relaxare, pornind de la u'm și având ca rezultat ,,/ se determină c'/+l) = йт -pm(L~ rm(Lmîim - fm)); (opțional) se aplică un număr de ori metoda de relaxare Numărul de pași de iterații Jacobi este independent de hm în metoda cu două grile, descrisă până aici, um i a fost calculat exact Prin prelungirea sa pe grila Gm, se obține doar o aproximație vm a soluției exacte vm = L~ dm Astfel, nu este neapărat necesară calcularea exactă a lui um i, ci se poate utiliza o aproximație a acestuia, obținută printr-un proces iterativ Deoarece sistemul = dm i este similar cu sistemul Lmum = fm, se poate aplica același algoritm de rezolvare Se obține o metodă pe trei niveluri m, m — , m — Procesul de modificare a algoritmului poate fi continuat până la utilizarea tuturor nivelurilor {m, m — , , } Nivelul corespunde grilei celei mai rare și numărului celui mai mic de ecuații (o singură ecuație pentru exemplul considerat, care poate fi rezolvată exact) Metoda ce utilizează toate m + niveluri se numește metodă multigrid (multi-grilă) REZOLVAREA ECUAȚIILOR CU DERI-VATE PARȚIALE Exemplul Se consideră domeniul de integrare = [a, b] X [c, d] C R și ecuația cu derivate parțiale însoțită de anumite condiții pe frontieră Soluția exactă este discretizată în punctele rezultate prin triangulația din figura (a) în urma aproximării derivatelor parțiale cu diferențe finite se obține un sistem liniar Akuk = fk cu matrice rară cu elemnte nenule plasate pe diagonale Se definesc grilele G/,, к > astfel Gk = {(жі, ж ) I жг = жг + jhik, j = , , , к, I = , }, unde жю = а, х = b, h = (b-a)/ , h = (с- d)/ , hîk = hîk / , к > , i = , (figura b) Există mai multe posibilități de alegere a operatorilor de prelungire pk și restricționare rk Un exemplu de prelungire este interpolarea liniară a valorile în vârfurile triangulației mai rare (figura c) Funcția de restricționare rk este aleasă astfel încât Ak i = rk Akpk să aibă o structură asemănătoare matricei Ak □ □ □ □ punct grilă rară punct grilă fină (c) Figura : (a) Discretizarea domeniului de integrare (b) Grilele și funțiile de restricționare/prelungire (c) Punctele pentru care p obține valori Dacă se implementează un asemenea algoritm pe un calculator paralel prin asocierea fiecărui nod al grilelor la un procesor, majoritatea timpului procesoarele nu sunt utilizate, deoarece la un moment dat nu se lucrează decât asupra unei grile Pe de altă parte, comunicările nu se realizează numai între procesoarele învecinate Strategiile care au fost propuse, pentru implementarea în paralel, sunt: transpunerea fiecărei grile pe o latice (rețea fizică) de procesoare cu comunicarea necesară de date referitoare de pe grilele anterioare (varianta indicată pentru cazul unui sistem cu memorie comună); CAPITOLUL ALGORITMI NUMERICI PARALELI prima strategie cu compresarea grilei înaintea calculului pe o structură de procesoare direct conectate (varianta indicată pentru cazul unui sistem cu transmitere de mesaje); simultana relaxare pe toate grilele Anexa PROBLEME Pe baza diagramei de scurgere a informației stabiliți care valori pot fi simultan evaluate în instrucțiunile for i := to do for j := to do a[b j] := а[г - , j - ] + а[г, j - ]; In ciclul for i := to do begin : a[i] := f(a[i — ], b[i — ]) : b[i] := jg(tz[z]); end; asignările și nu pot fi evaluate în paralel pentru toate valorile i Se cer următoarele: (a) demonstrați acest fapt prin prezentarea diagramei scrurgerii informației; (b) modificați (printr-o variație a indexului г) astfel încât asignările și să poate fi evaluate simultan Elaborați diagrama fluxului informațional în câți pași poate fi efectuat ciclul următor? for i := to do begin if odd(i) then a Li] : =b Li]+c Li] else a Li]:=bLi] cLi]; dLi] :=aLi] -eLi] ; f Li] :=dLi] *gLi] ; ANEXA PROBLEME end (a) într-un sistem vectorial; (b) într-un sistem SIMD; (c) într-un sistem MIMD Dată fiind o matrice A de dimensiune X și fiind disponibil un sistem paralel cu transmitere de mesaje și conectare tip tor în care fiecare element de procesare primește un element al matricei corespunzător indicilor din rețea, descrieți un ciclu efectuat în paralel, ce presupune transmiterea unor elemente ale matricei, în urma căruia matricea A este transformată în ( « « « « \ «n « « « « « « « \ « « « « / O matrice A este stocată într-o latice de procesoare de dimensiunea matricei, procesorul Pi-j deținând data Dezvoltați un algoritm pentru a transpune matricea, adică P^ să conțină la final a^ Stabiliți funcția de transpunere unu-la-unu a unui linii de d procesoare într-un hipercub d-dimensional (/ este unu-la-unu, adică pentru oricare procesor Pi conectat în linie cu Рг+і, -Рдр din hipercub este conectat direct cu Рдг+ р Un anumit procesor P^ a unui sistem cu transmitere de mesaje cu conectare tip latice de dimensiune n deține o dată x care trebuie transmisă la toate procesoarele Elaborați un algoritm pentru transmiterea acestei date Dată fiind o secvență de n = d numere, ж , Жі, ,ж„ і stocate într-un hipercub d-dimensional astfel încât жг- este memorat în Рг, unde ; (c) determinarea valorilor sin(p) și cos(p), unde Indicație: se consideră formula recursivă f Pk + «fc+l, Pk n Po — Pk Pk Рч și se determină recursiv vectorul (sinp/; | x,cosPk+i)- Se dau n numere naturale жІ ж , ,жп memorate în primele n locații ale memoriei globale a unui sistem PRAM CRCW arbitrar Elaborați un algoritm care să rezolve într-un număr de pași în paralel care nu depinde de n, utilizând n procesoare, problema determinării existenței a doi indici i j astfel încât Xi = Xj (exploatați faptul că жг- sunt numere naturale) Elaborați un algoritm paralel pentru determinarea unei matrice care conține toate pozițiile în care o secvență de caractere (pattern) apare într-un text dat ANEXA PROBLEME Dezvoltați un algoritm paralel pentru testarea inferiorității unui punct din plan față de un poligon convex Dată fiind o mulțime S de n puncte și un punct p G S din plan, se definește poligonul Voronoy V(p) asociat lui p ca fiind locul geometric al punctelor din plan care sunt mai apropiate de p decât de oricare punct din S Pe baza obeservației conform căreia V(p) este intersecția a n semiplane, deduceți un algoritm paralel care identifică poligonul de frontieră a lui V(p) Fie S = {pi,p , ,p„} o mulțime de puncte ordonate funcție de abscise, ®(pi) bi = b k+l jb k j ■ k=l k= k= Considerând disponibil un sistem paralel cu transmitere de mesaje să se elaboreze algoritmul în pseudocod pentru cazul în care fiecare element de procesare primește câte un element din matricele de intrare Construiți un algoritm de sortare pe baza tehnicii divide et impera și metoda de interclasare Fie A = («i, a , • • •, R o funcție pentru care are loc V?i, t , t G [a, b], A f(h) > f(t ) V /(/i) > f(t ) t > t atunci noul interval este [t ,t ], iar dacă t , dimensiunile grilei și poziția procesorului ( Ab У, Z) în grilă Partea statică a unui program sub sistem PARIX include un mecanism inițial de încărcare care distribuie un program "principal” identic tuturor procesoarelor Datele globale ale unui nod conțin setul ce permite identificarea poziției procesorului în rețea (în "structura rădăcină”) Depinzând de poziția proprie, fiecare procesor execută diferite secțiuni ale programului Facilitățile de comunicare sub PARIX sunt reprezentate de legăturile virtuale legătură virtuală este o linie de comunicare între două procesoare, bidirecțională, sincronizată, ce nu utilizează buffere Definirea corectă a unui set de legături virtuale permite construirea unei topologii virtuale, ca de exemplu arborele binar sau hiper-cubul Fiecărei legături virtuale i se asociază un bloc de control a legăturii, LinkCB Comunicațiile prin legăturile virtuale se realizează pe baza accesării blocului LinkCB corespunzător Intr-o topologie virtuală, comunicarea datelor se efectuază pe baza aceluiași mecanism, dar blocul de control este înlocuit cu anumite adrese topologice, identificate via ZZ>, și poziții relative Funcțiile de comunicare între procese Send() , Recv() , ASendO , ARecvQ operează asupra topologiilor virtuale prin specificarea orientării relative în topologie, iar funcțiile SendLinkQ , RecvLinkO se referă direct la blocul de control LinckCB Conceptul PARIX de legătură virtuală a fost introdus pentru depășirea restricției fizice a numai patru legături fizice per procesor într-un calculator bazat pe transputere legătură virtuală este o pereche de canale virtuale prin care două procese pot comunica Procesele pot fi localizate pe un singur procesor (legătură locală) sau pe procesoare arbitrare din rețeaua fizică Există patru tipuri de comunicare posibile în sistemul PARIX: comunicarea sincronă printr-o legătură virtuală: procesele conectate printr-o legătură virtuală sunt sincronizate în timpul comunicării Un proces poate aștepta simultan comunicațiile prin mai multe legături Funcțiile C de bibliotecă utilizate pentru comunicarea sincronă printr-o legătură virtuală sunt Send() , Recv() , (utilizate pentru comunicarea prin legăturile logice ale unei topologii virtuale) SendLinkQ , RecvLinkO , Select (utilizate pentru comunicarea prin legături virtuale); comunicarea sincronă aleatoare nu necesită definirea unor legături virtuale Funcțiile C de bibliotecă utilizate sunt SendNodeQ , ReceiveNodeQ (utilizate pentru comunicări aleatoare între două noduri arbitrare); PROGRAMAREA SUB SISTEMUL PARIX PENTRU TRANSPUTERE comunicarea asincronă printr-o legătură virtuală Se efectuează simultan cu calculul Emiterea și recepționarea informațiilor este realizată în timp ce procesul continuă execuția Mesajele sunt stocate în buffere intermediare atât la emițător cât și la receptor Funcțiile C corespunzătoare de bibliotecă sunt AlnitO, ASendO , ARecvO , ASyncO, AInfoO; comunicarea asincronă aleatoare este bazată pe principiul "cutiilor de poștă” Nu este necesară o legătură virtuală între cele două procese care comunică Transferul de date are loc pe baza utilizării rețelei fizice Procesul receptor are posibilitatea de a gestiona "cutia poștală” și poate aștepta sosirea unui anumit mesaj Funcțiile specifice sunt: PutMessage() , GetMessage() , ExchangeMessageQ • Pentru realizarea asincronă a unor operații distincte se utilizează tehnica thread (proces, sarcină, obligație), care permite rularea concurentă în același "context” și partajarea tuturor variabilelor globale definite în program Sincronizarea se realizează prin operarea asupra unor semafoare Tehnica thread permite rularea concurentă a mai multor procese pe un singur procesor Funcțiile principale utilizate sunt: StartThread pentru lansarea sarcinilor paralele, WaitThread pentru așteptarea terminării unei sarcini specifice, ChangePriority pentru schimbarea priorității procesului actual Funcțiile care manipulează "semafoarele” sunt: InitSem pentru inițializarea unui semafor cu anumită valoare, Wait, TestWait pentru accesarea unui semafor (cu sau fără blocarea procesului), Signal pentru eliberarea unui semafor Biblioteca topologiilor virtuale ajută programatorul în construirea rețelelor de comunicare pentru anumite probleme standard In plus, prin utilizarea topologiilor din bibliotecă, la execuție, se realizează implicit o optimizare a legăturilor virtuale pe structura fizică de comunicare Astfel, la nivelul • legăturilor virtuale și al topologiilor definite de utilizator, transpunerea pe rețea se realizează implicit, • topologiilor din bibliotecă, se realizează optimizarea proiecției pe rețeaua fizică Exemplul : Programul ”Hello, World!” Se consideră programul de tipărire a mesajului "Hello, world!” în varianta paralelă în care procesorul își prezintă identificatorul ID: #include #include ANEXA MEDII DE PROGRAMARE void main(void) { int ProcID; /* identificatorul procesorului */ ProcID =GET R T() — >ProcRoot — >MyProcID; printf ("Hello, world! Eu sunt procesorul %d \ n" , Proci D) ; } Exemplu de rulare Rezultatul execuției programului pentru o rețea de X procesoare va fi asemănător următoarei secvențe: Hello, world! Eu sunt procesorul Hello, world! Eu sunt procesorul Hello, world! Eu sunt procesorul Hello, world! Eu sunt procesorul Multiplicarea mesajelor se explică prin faptul că la execuție programul este inițial copiat la numărul de procesoare specificat în comanda run Comportarea fiecărui procesor este determinată de poziția procesorului în rețea Exemplul : Procese concurente pe un singur procesor prin legături virtuale Programul următor activează două procese, conectate printr-o legătură virtuală, pe un singur procesor #include #include #include #include int ProcID; int Ana(void) { LinkCB t *MariaLeg; int eroare,i; char răspuns[ ], ^întrebare =”Ce faci?” ; /* efectuează legătură cu Maria */ MariaLeg =MakeLink (ProciD , ,&,eroare) ; if (MariaLeg ==NULL) { printf(” Eroare legătură Ana cu Maria”) ; exit(l) ;} PROGRAMAREA SUB SISTEMUL PARIX PENTRU TRANSPUTERE /* comunica cu Maria */ printf ("Ana: -’/os\n" , intrebare) ; SendLink(Marfa£eg, (byte *)intrebare, st rlen (intrebare) + ) ; RecvLink(Marfa£eg, (byte *)raspuns , ) ; printf ("Maria: -’/os\n" ,răspuns) ; return ; } int Maria(void) { LinkCB t *AnaLeg; int eroare, char intrebare[IOO],*raspuns =”Invat!”; /* efectuează legătură cu Ana */ AnaLeg =MakeLink(FrocZD, ,feeroare) ; if (AnaLeg ==NULL) { printf (” Eroare legătură Maria cu Ana”) ; exit(l) ;} /* comunica cu Ana */ RecvLink(Ana£eg, (byte *)intrebare, ) ; SendLink(Ana£eg, (byte *)raspuns,strlen(raspuns)+ ) ; return ; } void main(void) { Thread t AnaStart, MariaStart; int eroare,rezultat; /* determina identificatorul procesorului pentru MakeLink/GetLink */ ProcID =GET R T()— >ProcRoot— >MyProcID; /* start Ana */ AnaStart =StartThread(Ana, ,&eroare, ) ; if (AnaStart ==NULL) { printf (” Ana nu vrea sa vorbească!”) ; exit(l) ;} /* start Maria */ MariaStart =StartThread(Maria, ,teroare, ) ; if (MariaStart ==NULL) { printf (” Maria nu vrea sa vorbească!”) ; exit(l) ;} /* asteapta terminarea sarcinilor */ WaitThread(Ana t art, Xresultat) ; ANEXA MEDII DE PROGRAMARE WaitThread(A/arzaS arZ, faresultat') ; } Programul presupune două procese ("threads”) asociate funcțiilor Ana și Maria Procesele concurente sunt lansate prin StartThread Legătura virtuală dintre cele două procese este realizată prin MakeLink/GetLink In acest exemplu, legătura este locală, deoarece cele două procese sunt rezidente pe același procesor, însă este posibilă crearea de legături virtuale între procesoare arbitrare ale unei rețele prin aceleași comenzi Crearea unei legături este asimetrică în sensul că, atunci când unul din parteri execută MakeLink, celălalt execută GetLink Crearea unei legături este posibil a se realiza și simetric dacă se utilizează ConnectLink Exemplul : Rezolvarea unui sistem liniar Topologia virtuală de inel poate fi utilizată în rezolvarea aproximativă a unui sistem liniar cu matrice diagonal dominată prin metoda iterativă Jacobi Un asemenea program paralel este prezentat în cele ce urmează /*Program de rezolvare iterativa cu metoda Jacobi a unui sistem linear */ #include #include #include #include #include #include #include #include #define MAXDIM int topiD,n, actual, iter = ; float a [MAXDIM], [MAXDIM][MAXDIM],er; struct MESAJ { float y,stop; } m ,m; int datei (void) /* dimensiune sistem */ { return( ); } void date (void) /* date despre sistemul liniar */ { [ ] = ; [ ] = ; b[ ] = ; switch(actuaZ) { PROGRAMAREA SUB SISTEMUL PARIX PENTRU TRANSPUTERE case : { a[ ] = ; a[l] = a[ ] = ; er = ; break; } case : { a[ ] = — ; a[l] = ; a[ ] = ; break; } case : { a[ ] = ; a[l] = — ; a[ ] = ; break; } default: printf ("Mai puține ecuații decât dimensiunea declarata!\n") ; } } int main(void) { RootProc t *r; RingData t *inel; int eroare, k, st; float p, c; n =datel () ; r =GET R T()— >ProcRoot; topld =MakeRing( ,n, MINSLICE,MAXSLICE,MINSLICE,MAXSLICE,MINSLICE,MAXSLICE); if (topld status ! =RING IN) { printf ("Procesor °/od nu este in configuratie\n" ,r— >MyProcID) ; return( ); } actual = inel— >id; if (actual == ) printf ("Rezolvarea unui sistem linear dat de °/od ecuatii\n" , n) ; date (); for (к = ; к && iter #include #include #include #include #include #include #include #define MAXITER int topiD, actual ] float iter = , der] float f(float ж) { геіигп(ж * ж * ж — ж); } float derivatațfloat ж) { float p = ж + , у =f (p), z =f (ж); return ((y-^)/ ); } void start(void) { der =derivata(Ver); iter— =±(iter) / der] printf ("k= X= ,f dx=°/of \n" , iter, der)] } int main(void) { ANEXA MEDII DE PROGRAMARE RingData t *inel; int eroare, *result,k; topld =MakeRing( , , MINSLICE,MAXSLICE,MINSLICE,MAXSLICE,MINSLICE,MAXSLICE); if (topld status ! =RING IN) return(l); actual = inel— >id; if (actual == ) for (k = ; к #include #include #define AUXILIAR "verific sclav" int main(void) { int inum,e; char sclav [ ], proc[ ], nume^sclav [ ]; if ( (e =enroll ("verific") ) răspunde: \"’/os\"n" ,proc,inum,nume^sclav) ; } } Programul pe care îl execută sclavii are, în acest caz, un unic cod sursă (salvat verif ic sclav): #include #include int main(void) { int inum; char proc[ ], nume[ ]; gethostname (nume, sizeof (nume') ) ; if (whoami (proc,kinum) \n" ,proc, inum) ; rcv(-l) ; rcvinfo((int *) ,(int *) ,proc,&inum) ; initsendQ ; putstring(nume) ; snd (proc, inum, ); leave(); } exit( ) ; } Exemplul : Problema supraviețuirii unei colonii de celule Supraviețuirea unei celule în problema vieții și a morții este determinată de poziția sa în populație și anumite reguli Fie un inel compus din asemenea celule și un număr natural n dat O celulă vie corespunde valorii , iar una moartă, valorii Trecerea la o nouă generație presupune un nou statut pentru fiecare celulă Noul statut al celului este determinat PROGRAMAREA SUB SISTEMUL PVM PENTRU REȚELE UNIX de bitul din numărul n de indice q i + ck + q+i Evoluția unei generații de celule poate fi urmărită în paralel, prin sistemul PVM Fiecare calculator-componentă este responsabil de evoluția unei secvențe din inel Procesele "sclavi” comunică între ele situația celulelor marginale, rezultatele unui pas al evoluției fiind transmise procesului "mașter” Procesul "mașter” corespunde următorului program C (mașter, c): #include #include #define MAX #define NSCLAVI void main(void) { int n, tipmesaj, i, mst [NSCLAVI], szr[MAX], szrl[MAX], m, k,poz, lung, iter,j ; char celuie [MAX] ; printf ("Introduceți numărul n:") ; scanf ("°/od" , &n) ; printf ("Introduceți numărul de generații:") ; scanf ("°/od" ,&ăter); printf ("Introduceți linia cu celule ( si ):"); scanf ("°/os" ,ce/u/e) ; for (к = ; к #include #define MAX #define NSCLAVl void main(void) { int n, tipmesaj, i, mst[NSCLAVl], szr[MAX+l], szrl[MAX+l]; int m, k, poz, lung, iter, j, val, p, a, index, număr; if ( (număr =enroll ("slave") #include #include float x = ,dx, er; float fțfloat x) ANEXA MEDII DE PROGRAMARE { return(x*x*x-x); } mainO { int num,msgtip,i,err,inst,tip->k', printf ("Rezolvarea ecuației x*x*x=x cu metoda Newton") ; num =enroll ("newton") if ( num ) { initsendQ ; putnf loat (&ж, ) ; msgtip = ; err =snd(”newton s" ,-l,msgtip) ; if ( err = ) { rcv(msgtip) ; getnf loat (Xdx , ) ; } er = f(x)/dx; x— = er; er =abs(er) ; k + +-, } initsendQ ; putnf loat (&ж, ) ; msgtip = ; snd (newton s” ,-l, msgtip) ; printf ("Soluție in %d iterații: x=% f\n", к — ,ж); } Programul "sclav” este următorul: #include #include #include float x,dx; float deriv(float ж) PROGRAMAREA CONCURENTĂ ÎN PARALLAXIS { return( *x*x-l);} mainO { int num, msgtip, msg, err, inst, tip, к; num =enroll ("newton s") if ( num = ) { rcv (msgtip) ; getnf loat (Xx, ) ; } initsendQ ; dx =deriv(m); putnf loat (Xdx , ) ; msgtip = ; err =snd(”newton” ,-l,msgtip) ; if ( err lista[i — ] dreapta; dreapta : lista[i]— > lista[i + ] stingă; -tor: dreapta : matrice[i, j] — > matrice[i, (j + l)M Ddim] stingă; stingă : matrice[i, j\ — > matrice[i, (j — l)M Ddim] dreapta; sus : matrice[i, j]— > matrice[(i — l)M Ddim, jos : matrice[i, j]— > matrice[ji + l)M Ddim, -arbore binar: fiuA : arbore[i] arbore[ * i] tata; fiu : arbore[i] arbore[ * i + I\ tata; *) SCALAR lista variabile globale; (*de exemplu a : ARRAY [ dim] , El dim] OF REAL;*) VECTOR Usta valoriJocale; (*de exemplu ж,у:REAL;*) PROCEDURE nume procedura(variabile argumeni); (*de exemplu PROCEDURE copie(SCALAR a:REAL; VECTOR ж:REAL);*) variabile Jocale procedurii; BEGIN END nume-procedura; PROGRAMAREA CONCURENTĂ ÎN PARALLAXIS BEGIN LOAD( var sector, vector de scalari) ; (*de exemplu, LOAD(s,a); daca conexiunea este matrice*) PARALLEL [selectori (*optional - П - specificare procese active*) de exemplu: {[proces l proces ]}, intr-o structura lista sau {[ l, sau poziția in configurație a procesului, in caz lista sau matrice*) PROPAGATE legatura[{~ nr deplasari pe leg}] (var sector sur sa, [var sector -destinație})-, (*de exemplu, PROPAGATE stinga(x) ; sau PROPAGATE jos ~ (x,y)*) SEND | RECEIVE structura legatura(var sector) ТО | FROM stuctura legatura(varsect)-, (*pentru comunicare intre mai multe structuri in același program*) ENDPARALLEL; REDUCE actiune(v ar sector); (*de exemplu: suma tuturor variabilelor x: REDUCE SUM(s) sau maximul variabilelor у: REDUCE МАХ(у) *) WRITE(varsector) ; (* scrierea tuturor variabilelor varsector *) STORE [selector] (varsector, var scalar); (* selectorul poate fi, de exemplu [poz x\*],[poz y\*] intr-o structura matriceala*) END nume program ANEXA MEDII DE PROGRAMARE Exemplul : Procese independente Se determină valoarea integralei Jo prin distribuirea calculului în mai multe procese: se divizează intervalul [ , ] în n subintervale de lungimi egale h = /n Fie ti = ih, i = ,n Atunci f f(x)dx = ^f f(x)dx +A)/ ) = - / ) */z) ?:=i i=-\ i=-\ Cantitățile de sub sumă sunt evaluate concurent Se consideră cazul particular /(ж) = /( + ж ) SYSTEM integrala; C NSTn= ; h= /FL AT(n) ; CONFIGURATION lista[l n]; (* declararea proceselor*) CONNECTION; (*nu este necesara comunicarea *) VECTOR val: REAL; (*va deține valorile de sub suma*) PROCEDURE f (VECTOR x: REAL): VECTOR REAL; (*functia de integrat*) BEGIN RETURN( / ( +ж*ж)) END f; BEGIN PARALLEL (*determin concurent val aprox distincte*) val:=h*f( (FL AT(id no) — ) *h ); ENDPARALLEL; WriteReal(REDUCE SUM(uaZ) , ); (*afisarea sumei var val*) END integrala Exemplul : Determinarea maximului a dirn numere intregi SYSTEM Max; (*-determinarea maximului*) CONST dim = ; {*-dim'~ valori de intrare*) CONFIGURATION matrice[dim\, [dim]; (*-conf iguratia rețelei*) CONNECTION (*-conectare tip grila*) drept : matrice[i, j] — > matrice[i, j + ] sting; sting : matrice[i, j\ — > matrice[i, j — ] drept; PROGRAMAREA CONCURENTĂ ÎN PARALLAXIS sus : matrice[i, j]— > matrice[i — , j] jos; jos : matrice[i, j]— > matrice[i + , SCALAR i,j, maxim : INTEGER; (*-variabile-indici*) a :ARRAY[l- dim], [l dim~\ OF INTEGER; (*-datele inițiale*) VECTOR val,tampon: INTEGER; (*-max curent si val transmisa*) BEGIN WriteString("Determinare maxim a "); Writelnt (dim ** , ); WriteStringC" numere intregi"); WriteLn; WriteString("Introduceti numerele:"); WriteLn; FOR i := TO dim DO FOR j := TO dim DO Readlnt(a[z][j]) (*-citire date*) END; END; LOAD(val, a) ; (*-repartizare element/proces *) FOR i := TO dim— DO (*-determinare maxim pe linii *) PARALLEL (* val max curenta se copiaza ca val curenta*) tampon := val-, PROPAGATE sting(tampon)- IF tampon > val THEN val := tampon END; ENDPARALLEL (*max se afla pe prima coloana*) END ; FOR i : = TO dim— DO PARALLEL (*-determinare max pe coloane *) tampon := val-, (* max se propaga inspre prima*) PROPAGATE susitampon); IF tampon > val THEN val := tampon END; ENDPARALLEL (*-max de pe prima coloana este max absolut*) END ; STORE [ ] , [ ] ( val, maxim) ; (*-extragere maxim*) WriteString("Maximul este:"); Writelnt (maxim, ) ; END Max Exemplul : Sortarea bitonică a m numere întregi SYSTEM sort; (*sortare bitonică " m nr intregi utilizând conectarea liniara*) ANEXA MEDII DE PROGRAMARE CONST m = ; CONFIGURATION Zzs/[ * *m]; (*-lista proceselor*) CONNECTION sting : list[i] — > list[i — l] drept;(* -legaturile dintre procese *) drept : list[i]— > list[i + ] sting;! * intr-o structura liniara *) SCALAR n,i,j,u,v : INTEGER; (* -variabile auxiliare*) a: ARRAY [ * *m] OF INTEGER; (* -vectorul cu val de sortat *) VECTOR val,r,l: INTEGER; (* -valoare recepționate de procese*) sens,schimb: BOOLEAN; (* -sensul de sortare *) PROCEDURE sortbit (SCALAR VAR к :INTEGER);(*etapa к sort bitonică*) SCALAR i,p :INTEGER; (* -variabile auxiliare *) BEGIN p := * FOR i := ТО к DO p := p DIV END;(*-distanta de comunicare*) PARALLEL PROPAGATE drept'' p(yal,l); (*-comunicare valori*) PROPAGATE sting'' p(yal,r); schimb := FALSE; IF (id no MOD ( *p) > p) (*-specificare procese active*) OR (id no MOD ( * p) = ) THEN IF sens AND (Z > val) OR NOT sens AND ( ) THEN val := r END (*-schimbare valoare proces*) ENDPARALLEL END sortbit; BEGIN n := **m; (*-numar de valori sortate*) WriteString("Introduceti "); Writelnt(n, ); WriteStringC" valori reale:"); PROGRAMAREA CONCURENTĂ ÎN PARALLAXIS WriteLn; FOR i := TO n DO Readlnt (а[г]) END; (*-citire valori*) LOAD(val, a) ; (*-repartizare valoare/proces*) FOR i := TO m DO (*-i reprezintă pasul*) IF i arbore[ * i] tata-, fiu : arbore[i] arbore[ * i + l] tata', SCALAR i,j, fr, niv :INTEGER; b, ant :REAL; a, z :ARRAYЕ тажпоб?] OF REAL; VECTOR val,st,dr :REAL; u,s :INTEGER; ANEXA MEDII DE PROGRAMARE BEGIN fr:= * *(maxniv — ); b :=MIN; FOR i := TO maxnod DO a[i] :=MIN; z[i] :=MIN END; WriteStringC’Introduceți '); Writelnt (maxnod+ , ); WriteStringC’ numere reale'); WriteLn; FOR i := TO maxnod DO IF EVEN(z) THEN ReadReal (a[fr + i DIV ]) ELSE ReadReal(c[/r + (i - ) DIV ]) END END; L AD(s^,a); LOAD (t/r, z) ; PARALLEL val :=MIN ENDPARALLEL; WriteStringC’Vector sortat:'); WriteLn; REPEAT IF b=MIN THEN niv : = END; PARALLEL IF (val =MIN) AND ((stOMIN) OR (dr <>MIN)) OR (id no=l) AND ((s/OMIN) AND (dr <>MIN) OR (niv > maxniv) ) THEN и := ; IF (st dr) AND (u = )) OR ((s/=MIN) AND (dr <>MIN)) THEN val - = dr; и := END; IF и = THEN st :=MIN; IF id no MIN) AND (b O ant) THEN niv : = ; WriteFixPt(b, , ) END; IF b = ant THEN niv := niv + END; PARALLEL SEND arbore tata(val) TO arbore, fiulfst); PROGRAMAREA CONCURENTĂ ÎN PARALLAXIS SEND arbor е іаіа(ѵаГ) ТО arbore fiu (dr) ENDPARALLEL; PARALLEL s := ; IF (st OMIN) OR (dr OMIN) OR ((id no<>l) AND (val OMIN)) THEN s : = END ENDPARALLEL; UNTIL REDUCE SUM(s) = END sortarb 